#mr

MR案例:基站相关01

字段解释:product_no:用户手机号;lac_id:用户所在基站;start_time:用户在此基站的开始时间;staytime:用户在此基站的逗留时间。product_nolac_idmomentstart_timeuser_idcounty_idstaytimecity_id13429100031225548...
代码星球 ·2020-03-30

MR案例:WordCount改写

请参照wordcount实现一个自己的MapReduce,需求为:  a.输入文件格式:    xxx,xxx,xxx,xxx,xxx,xxx,xxx  b.输出文件格式:    xxx,20&nbs...
代码星球 ·2020-03-30

组合式,迭代式,链式MR

让你真正明白什么是MapReduce组合式,迭代式,链式...
代码星球 ·2020-03-30

MR案例:输出/输入SequenceFile

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(FlatFile)。在SequenceFile文件中,每一个key-value对被看做是一条记录(Record),基于Record的压缩策略,SequenceFile文件支持三种压缩类型:NONE:对records不...

MR案例:小文件合并SequeceFile

SequeceFile是HadoopAPI提供的一种二进制文件支持。这种二进制文件直接将<key,value>对序列化到文件中。可以使用这种文件对小文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1).支持压缩,且可定制为基于Record或Block压缩(Bl...

MR案例:MR和Hive中使用Lzo压缩

在MapReduce中使用lzo压缩 1).首先将数据文件在本地使用lzop命令压缩。具体配置过详见配置hadoop集群的lzo压缩//压缩lzop,解压缩lzop-d[root@ncstword]#lzopwords.txt[root@ncstword]#lswords.txtwords.txt.lzo 2).将lz...
代码星球 ·2020-03-30

MR案例:CombineFileInputFormat

CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。此案例让我明白了三点:详见解读:MR多路径输入和解读:CombineFileInputFormat类对于单一输入路径情况://...
代码星球 ·2020-03-30

MR案例:倒排索引 && MultipleInputs

本案例采用MultipleInputs类实现多路径输入的倒排索引。解读:MR多路径输入packagetest0820;importjava.io.IOException;importjava.lang.reflect.Method;importorg.apache.hadoop.conf.Configuration;i...

解读:MR多路径输入

对于在一个MR-Job中使用多路径作为输入文件,一般有三种方法:1).多次调用,加载不同路径:importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoop.mapreduce.lib.output.FileOutp...
代码星球 ·2020-03-30

MR案例:外连接代码实现

【外连接】是在【内连接】的基础上稍微修改即可。具体HQL语句详见Hive查询Joinpackagejoin.map;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf....

MR案例:内连接代码实现

本文是对Hive中【内连接】的Java-API的实现,具体的HQL语句详见Hive查询Joinpackagejoin.map;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop....

MR案例:Map-Join

适用场景:一张表十分小【key不可重复】、一张表非常大。用法:在Job提交时,首先将小表加载到DistributedCache分布式缓存中,然后从DistributeCache中读取小表解析成key/value保存到内存中(可以放在HashMap等容器中)。然后扫描大表中的每条记录的key是否能在内存中找到相同join...
代码星球 ·2020-03-30

Job流程:提交MR-Job过程

1.一个标准MR-Job的执行入口://参数true表示检查并打印Job和Task的运行状况System.exit(job.waitForCompletion(true)?0:1);2.job.waitForCompletion(true)方法的内部实现://job.waitForCompletion()方法的内部实现...

MR案例:Reduce-Join

问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:BeijingJD、BeijingRedStar)的关联信息。可参考MR案例:Map-Join1.map阶段:对比之前的单表关联可知,reduce阶段的key必须为关联两表的...
代码星球 ·2020-03-30

MR案例:倒排索引

1.map阶段:将单词和URI组成Key值(如“MapReduce:1.txt”),将词频作为value。  利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。ClassMap<Longwritable,Tex...
代码星球 ·2020-03-30
首页上一页...23456下一页尾页