包学习主题的文章列表，还有包学习的技术要点_第21页

大数据学习——hive安装部署

1上传压缩包2解压 tar-zxvfapache-hive-1.2.1-bin.tar.gz-Capps 3重命名mv apache-hive-1.2.1-binhive 4设置环境变量vi/etc/profileexpertHIVE_HOME=/root/apps/hiveex...

代码星球 ·2021-02-17

大数据学习——日志分析

有两个海量日志文件存储在hdfs上，其中登陆日志格式：user，ip，time，oper（枚举值：1为上线，2为下线）；访问之日格式为：ip，time，url，假设登陆日志中上下线信息完整，切同一上下线时间段内是用的ip唯一，计算访问日志中独立user数量最多的前10个url，用MapReduce实现。提示：1、要统计...

代码星球 ·2021-02-17

大数据学习——mapreduce运营商日志增强

需求1、对原始json数据进行解析，变成普通文本数据2、求出每个人评分最高的3部电影3、求出被评分次数最多的3部电影数据https://pan.baidu.com/s/1gPsQXVYSQEZ2OYek4HxK6Apom.xml<?xmlversion="1.0"encoding="UTF-8"?&g...

代码星球 ·2021-02-17

大数据学习——mapreduce学习topN问题

求每一个订单中成交金额最大的那一笔 top1数据Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pd...

代码星球 ·2021-02-17

大数据学习——mapreduce案例join算法

需求：用mapreduce实现selectorder.orderid,order.pdtid,pdts.pdt_name,oder.amountfromorderjoinpdtsonorder.pdtid=pdts.pdtid 数据：orders.txtOrder_0000001,pd001,222.8Ord...

代码星球 ·2021-02-17

大数据学习——mapreduce共同好友

数据 commonfriends.txtA:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J &...

代码星球 ·2021-02-17

大数据学习——mapreduce倒排索引

数据a.txthellojerryhellotomb.txtallentomallenjerryallenhelloc.txthellojerryhellotom 1pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http:...

代码星球 ·2021-02-17

大数据学习——mapreduce汇总手机号上行流量下行流量总流量

时间戳手机号MAC地址ip域名上行流量包个数下行上行流量下行流量http状态码1363157995052138265441015C-0E-8B-C7-F1-E0:CMCC120.197.40.440264020013631579910761392643565620-10-7A-28-CC-0A:CMCC120.196....

代码星球 ·2021-02-17

大数据学习——mapreduce程序单词统计

项目结构pom.xml文件<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"...

代码星球 ·2021-02-17

大数据学习——hadoop的RPC框架

项目结构服务端代码test-hadoop-rpcpom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/...

代码星球 ·2021-02-17

大数据学习——JAVA采集程序

从外部购买数据，数据提供方会实时将数据推送到6台FTP服务器上，我方部署6台接口采集机来对接采集数据，并上传到HDFS中提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10)，每分钟生成一个文件（00.dat,01.data,02.dat,........）提供方不...

代码星球 ·2021-02-17

大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上

点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（HadoopHDFS）上点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（HadoopHDFS）上一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力，避开高峰期。如果需要伪实时的上传，则采用定时上传的...

代码星球 ·2021-02-17

大数据学习——有两个海量日志文件存储在hdfs

有两个海量日志文件存储在hdfs上，其中登陆日志格式：user，ip，time，oper（枚举值：1为上线，2为下线）；访问之日格式为：ip，time，url，假设登陆日志中上下线信息完整，切同一上下线时间段内是用的ip唯一，计算访问日志中独立user数量最多的前10个url，用MapReduce实现。提示：1、要统计...

代码星球 ·2021-02-17

大数据学习——hdfs客户端流式操作代码的实现

packagecn.itcast.bigdata.hdfs.diceng;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.*;importorg.apache.hadoop.io.IOUtils;importorg.junit....

代码星球 ·2021-02-17

使用IntelliJ IDEA开发SpringMVC网站的学习

　　最近开始了“使用IntelliJIDEA开发SpringMVC网站”的学习，有幸看到一份非常完善的学习资料，笔者非常用心的详细注释了一份关于博客的开发过程和细节，并且在评论中回复大家提出的问题，非常感谢前辈的无私分享！　　下面是相关的网址：　　使用IntelliJIDEA开发SpringMVC网站（一）开发环境　　...

代码星球 ·2021-02-17