51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#mr
MR案例:基站相关01
字段解释:product_no:用户手机号;lac_id:用户所在基站;start_time:用户在此基站的开始时间;staytime:用户在此基站的逗留时间。product_nolac_idmomentstart_timeuser_idcounty_idstaytimecity_id13429100031225548...
代码星球
·
2020-03-30
MR
案例
基站
相关
MR案例:WordCount改写
请参照wordcount实现一个自己的MapReduce,需求为: a.输入文件格式: xxx,xxx,xxx,xxx,xxx,xxx,xxx b.输出文件格式: xxx,20&nbs...
代码星球
·
2020-03-30
MR
案例
WordCount
改写
组合式,迭代式,链式MR
让你真正明白什么是MapReduce组合式,迭代式,链式...
代码星球
·
2020-03-30
组合式
迭代
链式
MR
MR案例:输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(FlatFile)。在SequenceFile文件中,每一个key-value对被看做是一条记录(Record),基于Record的压缩策略,SequenceFile文件支持三种压缩类型:NONE:对records不...
代码星球
·
2020-03-30
MR
案例
输出
输入
SequenceFile
MR案例:小文件合并SequeceFile
SequeceFile是HadoopAPI提供的一种二进制文件支持。这种二进制文件直接将<key,value>对序列化到文件中。可以使用这种文件对小文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1).支持压缩,且可定制为基于Record或Block压缩(Bl...
代码星球
·
2020-03-30
MR
案例
文件
合并
SequeceFile
MR案例:MR和Hive中使用Lzo压缩
在MapReduce中使用lzo压缩 1).首先将数据文件在本地使用lzop命令压缩。具体配置过详见配置hadoop集群的lzo压缩//压缩lzop,解压缩lzop-d[root@ncstword]#lzopwords.txt[root@ncstword]#lswords.txtwords.txt.lzo 2).将lz...
代码星球
·
2020-03-30
MR
案例
Hive
使用
Lzo
MR案例:CombineFileInputFormat
CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。此案例让我明白了三点:详见解读:MR多路径输入和解读:CombineFileInputFormat类对于单一输入路径情况://...
代码星球
·
2020-03-30
MR
案例
CombineFileInputFormat
MR案例:倒排索引 && MultipleInputs
本案例采用MultipleInputs类实现多路径输入的倒排索引。解读:MR多路径输入packagetest0820;importjava.io.IOException;importjava.lang.reflect.Method;importorg.apache.hadoop.conf.Configuration;i...
代码星球
·
2020-03-30
MR
案例
倒排
索引
MultipleInputs
解读:MR多路径输入
对于在一个MR-Job中使用多路径作为输入文件,一般有三种方法:1).多次调用,加载不同路径:importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoop.mapreduce.lib.output.FileOutp...
代码星球
·
2020-03-30
解读
MR
多路径
输入
MR案例:外连接代码实现
【外连接】是在【内连接】的基础上稍微修改即可。具体HQL语句详见Hive查询Joinpackagejoin.map;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf....
代码星球
·
2020-03-30
MR
案例
连接
代码
实现
MR案例:内连接代码实现
本文是对Hive中【内连接】的Java-API的实现,具体的HQL语句详见Hive查询Joinpackagejoin.map;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop....
代码星球
·
2020-03-30
MR
案例
连接
代码
实现
MR案例:Map-Join
适用场景:一张表十分小【key不可重复】、一张表非常大。用法:在Job提交时,首先将小表加载到DistributedCache分布式缓存中,然后从DistributeCache中读取小表解析成key/value保存到内存中(可以放在HashMap等容器中)。然后扫描大表中的每条记录的key是否能在内存中找到相同join...
代码星球
·
2020-03-30
MR
案例
Map-Join
Job流程:提交MR-Job过程
1.一个标准MR-Job的执行入口://参数true表示检查并打印Job和Task的运行状况System.exit(job.waitForCompletion(true)?0:1);2.job.waitForCompletion(true)方法的内部实现://job.waitForCompletion()方法的内部实现...
代码星球
·
2020-03-30
Job
流程
提交
MR-Job
过程
MR案例:Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:BeijingJD、BeijingRedStar)的关联信息。可参考MR案例:Map-Join1.map阶段:对比之前的单表关联可知,reduce阶段的key必须为关联两表的...
代码星球
·
2020-03-30
MR
案例
Reduce-Join
MR案例:倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce:1.txt”),将词频作为value。 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。ClassMap<Longwritable,Tex...
代码星球
·
2020-03-30
MR
案例
倒排
索引
首页
上一页
...
2
3
4
5
6
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他