#hadoop

spark为什么比hadoop的mr要快?

1.前言Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。但是事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。SparkSQL比Ha...

hadoop namenode切换

hdfs haadmin -transitionToActive --forcemanual nn1将nn1强制转换为Activehdfshaadmin-transitionToStandby--forcemanualnn2将nn2强制转换为standby...
代码星球 ·2021-02-20

org.apache.hadoop.security.AccessControlException

Windows|Eclipse运行HDFS程序之后,报:org.apache.Hadoop.security.AccessControlException:Permissiondenied:user=WQbin,access=WRITE,inode="":hadoop:supergroup:rwxr-xr-x。或者Wi...

CentOS7.5搭建Hadoop2.7.6完全分布式集群

Hadoop官方地址:http://hadoop.apache.org/1.1防火墙,静态IP,主机名关闭防火墙,设置静态IP,主机名此处略,参考  Linux之CentOS7.5安装及克隆1.2修改host文件我们希望三个主机之间都能够使用主机名称的方式相互访问而不是IP,我们需要在hosts中配...

centos7装单机hadoop2.7.3

(1)hadoop2.7.3下载(前提:先安装java环境)下载地址:http://hadoop.apache.org/releases.html(注意是binary文件,source那个是源码)(2)解压tar.gz(3)配置hadoop1.修改/usr/hadoop/hadoop-2.7.3/etc/hadoop/...
代码星球 ·2021-02-18

hadoop的特性

hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是一种可靠,高效,可伸缩的方式进行处理的,它有一下几方面特性:1.高可靠性:采用冗余数据存贮方式,即使一个副本发生故障,其他副本也可以保证对外工作的正常进行。2.高效性:作为并行分布式计算平台,hadoop采用分布式存贮和分布式处理两大核心技术,能够高效的处...
代码星球 ·2021-02-18

hadoop中map和reduce的数量设置问题

转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是...

hadoop2.2.0伪分布式搭建

1.准备Linux环境1.0点击VMware快捷方式,右键打开文件所在位置->双击vmnetcfg.exe->VMnet1host-only->修改subnetip设置网段:192.168.1.0子网掩码:255.255.255.0->apply->ok回到windows-->打开网...
代码星球 ·2021-02-18

hadoop启动后没有datanode怎么办

根据日志中的路径,cd/home/hadoop/tmp/dfs,能看到data和name两个文件夹。方法一:删除DataNode的所有资料及将集群中每个datanode节点的/dfs/data/current中的VERSION删除,然后重新执行hadoopnamenode-format进行格式化,重启集群,错误消失。方...

大数据学习——hadoop2.x集群搭建

1.准备Linux环境1.0先将虚拟机的网络模式选为NAT1.1修改主机名vi/etc/sysconfig/networkNETWORKING=yesHOSTNAME=itcast###1.2修改IP两种方式:第一种:通过Linux图形界面进行修改(强烈推荐)进入Linux图形界面->右键点击右上方的两个小电脑-...

大数据学习——hadoop安装

上传centOS6.7-hadoop-2.6.4.tar.gz解压tar-zxvf centOS6.7-hadoop-2.6.4.tar.gzhadoop相关修改配置1修改/root/apps/hadoop/etc/hadoop 目录下的hadoop-env.shvi hadoop-env...
代码星球 ·2021-02-18

大数据学习——hadoop集群搭建2.X

1.准备Linux环境1.0先将虚拟机的网络模式选为NAT1.1修改主机名vi/etc/sysconfig/networkNETWORKING=yesHOSTNAME=itcast###1.2修改IP两种方式:第一种:通过Linux图形界面进行修改(强烈推荐)进入Linux图形界面->右键点击右上方的两个小电脑-...

大数据学习——HADOOP集群搭建

4.1HADOOP集群搭建4.1.1集群简介HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起HDFS集群:负责海量数据的存储,集群中的角色主要有NameNode/DataNodeYARN集群:负责海量数据运算时的资源调度,集群中的角色主要有ResourceManager...

大数据学习——Hadoop第一天

HADOOP是apache旗下的一套开源软件平台HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有HDFS(分布式文件系统)YARN(运算资源调度系统)MAPREDUCE(分布式运算编程框架)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP...

大数据学习——hadoop的RPC框架

项目结构 服务端代码test-hadoop-rpcpom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/...
首页上一页12345...下一页尾页