#hadoop

hadoop入门到实战(13)Flume从入门到实战

1.1Flume定义  Flume(水槽)是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。  在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断...
代码星球 ·2020-09-05

hadoop入门到实战(16)azkaban从入门到实战

1.1为什么需要工作流调度系统1)一个完整的数据分析系统通常都是由大量任务单元组成:  shell脚本程序,java程序,mapreduce程序、hive脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。 &em...
代码星球 ·2020-09-05

hadoop入门到实战(18)优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

1.1、NameNode的元数据备份使用SSD1.2、定时备份NameNode上的元数据  建议每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。1.3、为NameNode指定多个元数据目录  使用dfs.name.dir或者...

hadoop入门到实战(17)Oozie从入门到实战

  Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。回到顶部2.1...
代码星球 ·2020-09-05

hadoop入门到实战(14)Kafka从入门到实战

1.1消息队列1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)  点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此。2)发布/订阅模式(...
代码星球 ·2020-09-05

hadoop入门到实战(15)Sqoop从入门到实战

  Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql,postgresql,...)间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据...
代码星球 ·2020-09-05

hadoop入门到实战(12)hive从入门到实战六

1.1、背景表结构在讲解中我们需要贯串一个例子,所以需要设计一个情景,对应还要有一个表结构和填充数据。如下:有3个字段,分别为personId标识某一个人,company标识一家公司名称,money标识该公司每年盈利收入(单位:万元人民币)建表并导入数据:create table company_i...
代码星球 ·2020-09-05

KMeans聚类算法Hadoop实现

Assistance.java 辅助类,功能详见凝视packageKMeans;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs....

Hadoop的RPC机制及简单实现

RemoteProcedureCall远程过程调用协议   RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层...

hadoop2.4.1伪分布式环境搭建

   注意:所有的安装用普通哟用户安装,所以首先使普通用户可以以sudo执行一些命令: 0.虚拟机中前期的网络配置参考:  http://www.cnblogs.com/qlqwjy/p/7783253.html1.赋予hadoop用户以sudo执行一些命令visodo或者vim/etc/sudoe...

hadoop简介

0.什么是大数据?  大数据是一个概念,也是一门技术,是在以hadoop为代表的大数据平台框架上进行各种数据分析的技术。  大数据包括了以hadoop和spark为代表的基础大数据框架。  还包括实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术。1.什么是hadoop?  简单的说就是开源框...
代码星球 ·2020-08-27

hadoop实验:求气象数据的最低温度

1.下载部分数据。由于实验就仅仅下载2003年的部分气象数据2.通过zcat*gz>sample.txt命令解压重定向[hadoop@Mastertest_data]$zcat*gz>/home/hadoop/input/sample.txt3.查看数据格式4.把文件sample.txt放进h...

_00018 Hadoop-2.2.0 + Hbase-0.96.2 + Hive-0.13.1 分布式环境整合,Hadoop-2.X使用HA方式

博文作者:妳那伊抹微笑itdog8地址链接: http://www.itdog8.com(个人链接)博客地址:http://blog.csdn.net/u012185296个性签名:世界上最遥远的距离不是天涯,也不是海角。而是我站在妳的面前,妳却感觉不到我的存在技术方向:Flume+Kafka+...

怎样将OpenStack部署到Hadoop

  随着信息时代的快速发展,大数据技术和私有云环境都非常实用;只是,假设将两者结合在一起。企业会获得巨大的利润。虽然结合两者会让环境变得更复杂。企业仍然能够看到将OpenStack私有云和ApacheHadoop环境结合在一起产生的显著的协同效应。怎样来做会更好?  方案1.Swift、Nova&#...

Hadoop实战: Linux报 tmp 磁盘存储不足

Linux权限真是一大堆呀。在Linux下进行试验,突然来了个tmp磁盘存储不足。。。。。。。。。。。。。。。。。。然而。我却没有权限给tmp添加容量。。。。。。。。。。。。。仅仅有改动配置文件了!。。!。。!!!。!===================================================...
首页上一页...910111213...下一页尾页