oop主题的文章列表，还有oop的技术要点_第20页

【Hadoop离线基础总结】Hive的基本操作

创建数据库与创建数据库表创建数据库的相关操作创建数据库：CREATETABLEIFNOTEXISTSmyhivehive创建表成功后的存放位置由hive-site.xml配置文件中的一个属性指定<name>hive.metastore.warehouse.dir</name><value&...

代码星球 ·2020-08-09

【Hadoop离线基础总结】Hive的安装部署以及使用方式

安装部署Derby版hive直接使用cd/export/softwares将上传的hive软件包解压：tar-zxvfhive-1.1.0-cdh5.14.0.tar.gz-C../servers/cd/export/servers/hive-1.1.0-cdh5.14.0/启动：bin/hive缺点：多个地方安装hi...

代码星球 ·2020-08-09

【Hadoop离线基础总结】数据仓库和hive的基本概念

数据仓库概述数据仓库英文全称为DataWarehouse，一般简称为DW。主要目的是构建面向分析的集成化数据环境，主要职责是对仓库中的数据进行分析，支持我们做决策。主要特征面向主题（Subject-Oriented）：数据分析有一定的范围，需要选取一定的主题进行分析。集成性（Integrated）：集成各个其他方面关联...

代码星球 ·2020-08-09

【Hadoop离线基础总结】Yarn集群的资源调度

介绍概述Yarn是Hadoop2.x引入的新的资源管理系统模块，主要用于管理集群当中的资源（主要是服务器的各种硬件资源，比如内存、CPU等），它不光管理硬件资源，还管理运行的一些任务信息等。Yarn调度资源可以分为两个层级一级管理调度：管理计算机的资源、运行job任务的生命周期二级管理调度：任务的计算模型（maptas...

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce参数优化

资源相关参数这些参数都需要在mapred-site.xml中配置mapreduce.map.memory.mb一个MapTask可使用的资源上限（单位:MB），默认为1024如果MapTask实际使用的资源量超过该值，则会被强制杀死。mapreduce.reduce.memory.mb一个ReduceTask可使用的资...

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

求取Top1的数据需求求出每一个订单中成交金额最大的一笔交易订单id商品id成交金额Order_0000005Pdt_01222.8Order_0000005Pdt_0525.8Order_0000002Pdt_03322.8Order_0000002Pdt_04522.4Order_0000002Pdt_05822....

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例

自定义InputFormat合并小文件需求无论hdfs还是mapreduce，存放小文件会占用元数据信息，白白浪费内存，实践中，又难免面临处理大量小文件的场景优化小文件的三种方式1.在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS2.在业务处理之前，在HDFS上使用mapreduce程序对小文件进行合并3...

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce倒排索引建立

求某些单词在文章中出现多少次有三个文档的内容，求hello,tom,jerry三个单词在其中各出现多少次hellotomhellojerryhellotomhellojerryhellojerrytomjerryhellojerryhellotomjava代码实现定义一个Mapper类packagecn.itcast....

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？用户及好友数据A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I...

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce增强（下）

MapTask运行机制详解以及MapTask的并行度MapTask运行流程第一步：读取数据组件InputFormat（默认TextInputFormat）会通过getSplits方法，对输入目录中的文件（输入目录也就是TextInputFormat的Path）进行逻辑切片得到splits。 ps.getSplit...

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce增强（上）

MapReduce的分区与reduceTask的数量概述MapReduce当中的分区：物以类聚，人以群分。相同key的数据，去往同一个reduce。ReduceTask的数量默认为一个，可以自己设定数量 job.setNumRudeceTasks(3)分区决定了我们的数据该去往哪一个ReduceTask里面去用代码实...

代码星球 ·2020-08-09

【Hadoop离线基础总结】MapReduce入门

Mapreduce思想概述MapReduce的思想核心是分而治之，适用于大量复杂的任务处理场景（大规模数据处理场景）。最主要的特点就是把一个大的问题，划分成很多小的子问题，并且每个小的子问题的求取思路与我们大问题的求取思路一样。最主要有两个阶段：一个map阶段，负责拆分；一个是reduce阶段，负责聚合。思想模型一个文...

代码星球 ·2020-08-09

【Hadoop离线基础总结】HDFS的API操作

创建maven工程并导入jar包注意由于cdh版本的所有的软件涉及版权的问题，所以并没有将所有的jar包托管到maven仓库当中去，而是托管在了CDH自己的服务器上面，所以我们默认去maven的仓库下载不到，需要自己手动的添加repository去CDH仓库进行下载。要用CDH的jar包，要先添加一个repositor...

代码星球 ·2020-08-09

【Hadoop离线基础总结】HDFS详细介绍

分布式文件系统设计思路概述只有一台机器时的文件查找：hello.txt/export/servers/hello.txt如果有多台机器时的文件查找：hello.txtnode02/export/servers/hello.txt 为了解决数据丢失的问题，引入副本机制，保证数据不会丢失如果对文件进行切块存储，那么元...

代码星球 ·2020-08-09

【Hadoop离线基础总结】HDFS入门介绍

概述HDFS全称为HadoopDistributeFileSystem，也就是Hadoop分布式文件系统，是Hadoop的核心组件之一。分布式文件系统是横跨在多台计算机上的存储系统，主要解决的就是大数据存储的问题特性master/slave架构HDFS集群一般是由一个NameNode和一定数目的DataNode组成。N...

代码星球 ·2020-08-09

【Hadoop离线基础总结】Hive的基本操作

【Hadoop离线基础总结】Hive的安装部署以及使用方式

【Hadoop离线基础总结】数据仓库和hive的基本概念

【Hadoop离线基础总结】Yarn集群的资源调度

【Hadoop离线基础总结】MapReduce参数优化

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例

【Hadoop离线基础总结】MapReduce倒排索引建立

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析 求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

【Hadoop离线基础总结】MapReduce增强（下）

【Hadoop离线基础总结】MapReduce增强（上）

【Hadoop离线基础总结】MapReduce入门

【Hadoop离线基础总结】HDFS的API操作

【Hadoop离线基础总结】HDFS详细介绍

【Hadoop离线基础总结】HDFS入门介绍

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？