51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#P
Hadoop资源调度器
hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:1.基于队列的FIFO(先进先出) hadoop默认的资源调度器。优点:简单明了。缺点:忽略了不同作业的需求差异。2.计算能力调度器Capac...
代码星球
·
2020-03-30
Hadoop
资源
调度
配置hadoop集群的lzo压缩
MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩1).配置前的环境准备#yum-yinstalllzo-develzlib-develgccautoconfautomakelibtool2).(all)在集群的所有节点上安装Lzo库 下载、解压,然后编译。并将/usr/local/hadoop/lzo-2...
代码星球
·
2020-03-30
配置
hadoop
集群
lzo
压缩
解读:hadoop压缩格式
Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2。它们的优缺点和应用场景如下:1).gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoopnative库;大部分linux系统都自带gzip命令...
代码星球
·
2020-03-30
解读
hadoop
压缩
格式
Job流程:Mapper类分析
此文紧接Job流程:决定map个数的因素,Map任务被提交到Yarn后,被ApplicationMaster启动,任务的形式是YarnChild进程,在其中会执行MapTask的run()方法。无论是MapTask还是ReduceTask都是继承的Task这个抽象类。1).Mapper类中setup()和cleanup...
代码星球
·
2020-03-30
Job
流程
Mapper
分析
MR案例:CombineFileInputFormat
CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。此案例让我明白了三点:详见解读:MR多路径输入和解读:CombineFileInputFormat类对于单一输入路径情况://...
代码星球
·
2020-03-30
MR
案例
CombineFileInputFormat
HDFS的回收站 && 安全模式
回收站机制 1).HDFS的回收站机制由core-site.xml中fs.trash.interval属性(以分钟为单位)设置,默认是0,表示未启用。注意:配置数值应该为1440,而配置24*60会抛出NumberFormatException异常(亲测)。 2).回收站特性被启用时,每个用户都有独立的回收站目录,即:...
代码星球
·
2020-03-30
HDFS
回收站
安全
模式
MR案例:倒排索引 && MultipleInputs
本案例采用MultipleInputs类实现多路径输入的倒排索引。解读:MR多路径输入packagetest0820;importjava.io.IOException;importjava.lang.reflect.Method;importorg.apache.hadoop.conf.Configuration;i...
代码星球
·
2020-03-30
MR
案例
倒排
索引
MultipleInputs
解读:Hadoop Archive
hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode中占用150byte内存。如果存储大量的小文件,它们会吃掉NameNode节点的大量内存。MR案例:小文件处理方案HadoopArchive或者HAR,是一个高效地将小文件放入HDFS块中的文件存档工具。它能将多个小...
代码星球
·
2020-03-30
解读
Hadoop
Archive
解读:CombineFileInputFormat类
MR-Job默认的输入格式FileInputFormat为每一个小文件生成一个切片。CombineFileInputFormat通过将多个“小文件”合并为一个"切片"(在形成切片的过程中也考虑同一节点、同一机架的数据本地性),让每一个Mapper任务可以处理更多的数据,从而提高MR任务的执行速度...
代码星球
·
2020-03-30
解读
CombineFileInputFormat
解读:MultipleOutputs类
//MultipleOutputs类用于简化多文件输出TheMultipleOutputsclasssimplifieswritingoutputdatatomultipleoutputs//案例一:在job默认的输出之外,附加自定义的输出.自定义的输出可以指定:输出格式以及key/value类型.Caseone:wr...
代码星球
·
2020-03-30
解读
MultipleOutputs
hadoop2对应的eclipse插件使用
1.eclipse插件安装步骤:a).把插件复制到eclipse安装目录plugins文件夹下b).打开eclipse的Window---Preference---HadoopM/R---指向hadoop-2.2.0安装目录:只要在Windows上将hadoop-2.2.0.tar.gz解压即可c).Window---...
代码星球
·
2020-03-30
hadoop2
对应
eclipse
插件
使用
MR案例:Map-Join
适用场景:一张表十分小【key不可重复】、一张表非常大。用法:在Job提交时,首先将小表加载到DistributedCache分布式缓存中,然后从DistributeCache中读取小表解析成key/value保存到内存中(可以放在HashMap等容器中)。然后扫描大表中的每条记录的key是否能在内存中找到相同join...
代码星球
·
2020-03-30
MR
案例
Map-Join
hadoop随手笔记
1.HadoopStreaming是为了方便不太熟悉java用户编写MR程序的工具。用户可以将任何可执行文件(C++)或者脚本(python,ruby)作为Mapper/Reducer,提高了效率。HadoopSteaming要求用户编写的Mapper/Reducer从【标准输入】中读取数据,并将结果写到【标准输出】中...
代码星球
·
2020-03-30
hadoop
随手
笔记
Job流程:决定map个数的因素
此文紧接Job流程:提交MR-Job过程。上一篇分析可以看出,MR-Job提交过程的核心代码在于JobSubmitter类的submitJobInternal()方法。本文就由此方法的这一句代码开始分析://计算并确定map的个数,以及各个输入切片Splits的相关信息intmaps=writeSplits(job,s...
代码星球
·
2020-03-30
Job
流程
决定
map
个数
MR案例:路径过滤PathFilter
问题描述:现有一批cookie日志,按照日期进行存放,如目录“dir/2015-08-08”下存放2015-08-08这一天的所有cookie。而目录“/2015-08-08/”下又根据数据文件名称的不同存放不同项目的cookie,如“project-flag...
代码星球
·
2020-03-30
MR
案例
路径
过滤
PathFilter
首页
上一页
...
3296
3297
3298
3299
3300
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他