#hadoop

flink error Hadoop is not in the classpath/dependencies.

1.在$FLINK_HOME/lib下加Hadoop的jar包,官网可以下载 https://flink.apache.org/downloads.html2.mvn添加依赖:<dependency><groupId>org.apache.hadoop</groupId>&...
代码星球 ·2020-12-30

flink yarn error 缺少hadoop 包

flinkversion: ApacheFlink1.11.2forScala2.12  后运行,各种jar包找不到yarn-session.sh-n1-jm1024m-tm1024m 查看官网:https://flink.apache.org/downloads.html可以知...

[Hadoop]-从数据去重认识MapReduce

  这学期刚好开了一门大数据的课,就是完完全全简简单单的介绍的那种,然后就接触到这里面最被人熟知的Hadoop了。看了官网的教程【吐槽一下,果然英语还是很重要!】,嗯啊,一知半解地搭建了本地和伪分布式的,然后是在没弄懂,求助了Google,搞来了一台机子,嗯,搭了个分布式的。其实是作业要求啦,觉得自己平时用单机的完全够...

Ubuntu 18.04虚拟机中 安装 Hadoop系统环境

修改root用户的初始密码sudopasswd 退出当前用户,使用root登陆系统。关闭防火墙systemctlstopfirewalld.service开机不启动防火墙systemctldisablefirewalld.service查看防火墙状态ufwstatusinactive状态是防火墙关闭状态,ac...

Hadoop总结

一、linux简介01.Linux简介linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布。,在加上用户空间的应用程序之后,成为Linux操作系统。应用:长时间的运行编写的程序代码,可以安装在各种计算机硬件设备中,如:手机、平板电脑、路由器等...
代码星球 ·2020-12-18

Hadoop优化

1、mr程序的效率瓶颈功能:分布式离线计算计算机性能:CPU、内存、磁盘、网络I/O操作优化(1)数据倾斜(代码优化)(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(combineTextInputFomrat小文件合并)(5)不可分块的超大文件(不断的溢写)(...
代码星球 ·2020-12-18

Hadoop压缩

一、Hadoop压缩简介1、hadoop的3个阶段(1)分布式文件系统HDFS(2)分布式编程框架MapReduce(3)yarn框架2、Hadoop数据压缩MR操作过程中进行大量数据传输。压缩技术能够有效的减少底层存储(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。数据压缩能够有效的节省资源!压缩是mr程...
代码星球 ·2020-12-18

模拟hadoop-rpc通信

一、RPC服务类packagecom.css.rpc.server;importjava.io.IOException;importorg.apache.hadoop.HadoopIllegalArgumentException;importorg.apache.hadoop.conf.Configuration;im...
代码星球 ·2020-12-18

Hadoop.2.x_常用端口及定义方法(转)

组件 节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp服务的端口HDFSDataNode50475dfs.datanode.htt...

Hadoop_常用存储与压缩格式

HDFS文件格式file_format:  TEXTFILE   默认格式  RCFILE     hive0.6.0和以后的版本  ORC      hive0.11.0和以后的版本  PARQUET    hive0.13.0和以后的版本,该数据格式企业中最常用  AVRO      hive0.14.0和以后的版...

Hadoop_UDTF示例

UDTF:一进多出UDTF(User-DefinedTable-GeneratingFunction)支持一个输入多个输出,一般用于解析工作,比如说解析url,然后获取url中的信息编码:继承GenericUDTF,实现方法:initializa(返回返回值的参数类型)、process具体的处理方法,  一般在这个方法...
代码星球 ·2020-12-07

Hadoop_UDAF示例

UDAF:多进一出GenericUDAFEvaluator:就是根据job的不同阶段执行不同的方法Hive通过GenericUDAFEvaluator.Modle来确定job的执行阶段PARTIAL1:从原始数据到部分聚合,调用方法iterate和terminatePartial方法PARTIAL2:从部分数据聚合到部...
代码星球 ·2020-12-07

Hadoop_UDF示例

UDF: 一进一出Eclipse端1.继承UDF2.实现evaluate方法(可重裁实现多个evaluate方法,以实现不同需求)3.导出类jar包,注意指定main方法Hive端1.将jar包添加到Hive:addjarlinux_path#0.14版才开始支持2.创建临时函数:create[tempora...
代码星球 ·2020-12-07

Hadoop openssl false

错误如图检查Hadoopnative经过:1.重新编译cdh的hadoop2.5.0,复制native2.重新格式化namenode都不行,另外openssl和openssl-dev都已安装像-mkdir,-ls都可以但导入数据还是这个错我再次重新解压cdh版hadoop源码包并编译,将native库重新导入一边一遍,...
代码星球 ·2020-12-07

Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run (dist) on project hadoop-kms: An Ant BuildException has occured

 编译cdh版hadoop2.5.0出现的问题系统:CentOs6664位JDK:1.7Maven:3.0.5Protobuf: libprotoc2.5.0编译命令: mvnpackage-DskipTests-Pdist,native**************************...
首页上一页...56789...下一页尾页