51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#离线
【Hadoop离线基础总结】MapReduce倒排索引建立
求某些单词在文章中出现多少次有三个文档的内容,求hello,tom,jerry三个单词在其中各出现多少次hellotomhellojerryhellotomhellojerryhellojerrytomjerryhellojerryhellotomjava代码实现定义一个Mapper类packagecn.itcast....
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
MapReduce
【Hadoop离线基础总结】MapReduce 社交粉丝数据分析 求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?
求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?用户及好友数据A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I...
代码星球
·
2020-08-09
共同
好友
Hadoop
离线
基础
【Hadoop离线基础总结】MapReduce增强(下)
MapTask运行机制详解以及MapTask的并行度MapTask运行流程第一步:读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法,对输入目录中的文件(输入目录也就是TextInputFormat的Path)进行逻辑切片得到splits。 ps.getSplit...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
MapReduce
【Hadoop离线基础总结】MapReduce增强(上)
MapReduce的分区与reduceTask的数量概述MapReduce当中的分区:物以类聚,人以群分。相同key的数据,去往同一个reduce。ReduceTask的数量默认为一个,可以自己设定数量 job.setNumRudeceTasks(3)分区决定了我们的数据该去往哪一个ReduceTask里面去用代码实...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
MapReduce
【Hadoop离线基础总结】MapReduce入门
Mapreduce思想概述MapReduce的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景)。最主要的特点就是把一个大的问题,划分成很多小的子问题,并且每个小的子问题的求取思路与我们大问题的求取思路一样。最主要有两个阶段:一个map阶段,负责拆分;一个是reduce阶段,负责聚合。思想模型一个文...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
MapReduce
【Hadoop离线基础总结】HDFS的API操作
创建maven工程并导入jar包注意由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载。要用CDH的jar包,要先添加一个repositor...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
HDFS
【Hadoop离线基础总结】HDFS详细介绍
分布式文件系统设计思路概述只有一台机器时的文件查找:hello.txt/export/servers/hello.txt如果有多台机器时的文件查找:hello.txtnode02/export/servers/hello.txt 为了解决数据丢失的问题,引入副本机制,保证数据不会丢失 如果对文件进行切块存储,那么元...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
HDFS
【Hadoop离线基础总结】HDFS入门介绍
概述HDFS全称为HadoopDistributeFileSystem,也就是Hadoop分布式文件系统,是Hadoop的核心组件之一。分布式文件系统是横跨在多台计算机上的存储系统,主要解决的就是大数据存储的问题特性master/slave架构HDFS集群一般是由一个NameNode和一定数目的DataNode组成。N...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
HDFS
【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建
服务规划步骤第一步:上传压缩包并解压cd/export/softwares/tar-zxvfhadoop-2.6.0-cdh5.14.0.tar.gz-C../servers/第二步:查看Hadoop支持的压缩方式以及本地库cd/export/servers/hadoop-2.6.0-cdh5.14.0bin/hado...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
CDH
【Hadoop离线基础总结】CDH版本的zookeeper环境搭建
下载下载地址http://archive.cloudera.com/cdh5/cdh/5/修改配置文件创建ZooKeeper数据存放目录mkdir-p/export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas修改ZooKeeper配置文件cd/export/servers/zoo...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
CDH
【Hadoop离线基础总结】完全分布式环境搭建
服务规划适用于工作当中正式环境搭建安装步骤第一步:安装包解压停止之前的Hadoop集群的所有服务,并删除所有机器的Hadoop安装包,然后重新解压Hadoop压缩包三台机器都执行rm-rf/export/servers/hadoop-2.7.5/在第一台机器解压压缩包cd/export/softwarestar-zxv...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
完全
【Hadoop离线基础总结】伪分布模式环境搭建
服务规划适用于学习测试开发集群模式步骤第一步:停止单节点集群,删除/export/servers/hadoop-2.7.5/hadoopDatas,重新创建文件夹停止单节点集群cd/export/servers/hadoop-2.7.5/sbin/stop-dfs.shsbin/stop-yarn.shsbin/mr-...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
分布
【Hadoop离线基础总结】Apache Hadoop的三种运行环境介绍及standAlone环境搭建
三种运行环境standAlone环境单机版的hadoop运行环境伪分布式环境主节点都在一台机器上,从节点分开到其他机器上(可以借助三台机器来实现)完全分布式环境主节点全部分散到不同机器上(NameNodeActive,NameNodeStandBy,ResourceManager主节点,ResourceManager备...
代码星球
·
2020-08-09
Hadoop
环境
离线
基础
总结
【Hadoop离线基础总结】Hadoop的架构模型
1.x的版本架构模型介绍架构图HDFS分布式文件存储系统(典型的主从架构)NameNode:集群当中的主节点,主要用于维护集群当中的元数据信息,以及接受用户的请求,处理用户的请求SecondaryNameNode:主要是辅助NameNode管理元数据信息DataNode:集群当中的从节点,主要用于存储数据什么是元数据?...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
架构
【Hadoop离线基础总结】zookeeper的介绍以及集群环境搭建、网络编程和RPC的简单了解
ZooKeeper介绍概述ZooKeeper是一个分布式协调服务的开源框架,主要用来解决分布式集群中应用系统的一致性问题。例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper本质上是一个分布式的小文件存储系统(ZooKeeper上面的每个文件内容最好不要超过1M),提供基于类似文件系统的目录树方式的数据存储,...
代码星球
·
2020-08-09
Hadoop
离线
基础
总结
zookeeper
首页
上一页
...
4
5
6
7
8
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他