#hadoop

HADOOP:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

   WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable参考了网上很多办法,不行。这个警告总觉得不爽。。最近部...

当Hadoop 启动节点Datanode失败解决

[日期:2014-11-01]来源:Linux社区 作者:shuideyidi[字体:大 中 小]当我动态添加一个Hadoop从节点的之后,出现了一个问题:[root@hadoopcurrent]# hadoop-daemon.shstartdatanodestartingdat...

hadoop开启Service Level Authorization 服务级认证-SIMPLE认证-过程中遇到的坑

背景描述:  最近在进行安全扫描的时候,说hadoop存在漏洞,Hadoop未授权访问【原理扫描】,然后就参考官方文档及一些资料,在测试环境中进行了开启,中间就遇到了很多的坑,或者说自己没有想明白的问题,在此记录下吧,这个问题搞了2天。环境描述:  hadoop版本:2.6.2操作步骤:1.想要开启服务级认证,需要在c...

Hadoop错误日志

1.错误日志:Directory/tmp/hadoop-root/dfs/nameisinaninconsistentstate:storagedirectorydoesnotexistorisnotaccessible.错误原因:在Linux下Hadoop等的各种数据默认保存在/tmp目录下。当重启系统后/tmp目录...
代码星球 ·2020-03-30

Hadoop新增和删除节点

1.安装lunix,和以前一样的版本2.初始化系统环境 2.1.设置静态ipvi/etc/sysconfig/network-scripts/ifcfg-eth0//增加#AdvancedMicroDevices[AMD]79c970[PCnet32LANCE]DEVICE=eth0#BOOTPROTO=dhcp#ad...
代码星球 ·2020-03-30

Hadoop集群搭建

注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系######注意######如果是租用的服务器...
代码星球 ·2020-03-30

Hadoop运维手记

1.处理hadoop的namenode宕机  处理措施:进入hadoop的bin目录,重启namenode服务  操作命令:cdpath/to/hadoop/bin  ./hadoop-daemon.shstartnamenode2.处理hadoop的jobtacker宕机  处理措施:进入hadoop的bin目录,重...
代码星球 ·2020-03-30

Hadoop性能调优

1.Jvm重用JVM重用不是指同一Job的两个或两个以上的Task同时运行于同一JVM上,而是N个Task按顺序在同一个Jvm上运行,即省去了Jvm关闭和再重启的时间。N值可以在Hadoop的mapre-site.xml文件mapreduce.job.jvm.numtasks(默认1)属性进行设置。也可在hive的执行...
代码星球 ·2020-03-30

Hadoop资源调度器

hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:1.基于队列的FIFO(先进先出)  hadoop默认的资源调度器。优点:简单明了。缺点:忽略了不同作业的需求差异。2.计算能力调度器Capac...
代码星球 ·2020-03-30

配置hadoop集群的lzo压缩

MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩1).配置前的环境准备#yum-yinstalllzo-develzlib-develgccautoconfautomakelibtool2).(all)在集群的所有节点上安装Lzo库 下载、解压,然后编译。并将/usr/local/hadoop/lzo-2...

解读:hadoop压缩格式

Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2。它们的优缺点和应用场景如下:1).gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoopnative库;大部分linux系统都自带gzip命令...
代码星球 ·2020-03-30

解读:Hadoop Archive

hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode中占用150byte内存。如果存储大量的小文件,它们会吃掉NameNode节点的大量内存。MR案例:小文件处理方案HadoopArchive或者HAR,是一个高效地将小文件放入HDFS块中的文件存档工具。它能将多个小...
代码星球 ·2020-03-30

hadoop2对应的eclipse插件使用

1.eclipse插件安装步骤:a).把插件复制到eclipse安装目录plugins文件夹下b).打开eclipse的Window---Preference---HadoopM/R---指向hadoop-2.2.0安装目录:只要在Windows上将hadoop-2.2.0.tar.gz解压即可c).Window---...

hadoop随手笔记

1.HadoopStreaming是为了方便不太熟悉java用户编写MR程序的工具。用户可以将任何可执行文件(C++)或者脚本(python,ruby)作为Mapper/Reducer,提高了效率。HadoopSteaming要求用户编写的Mapper/Reducer从【标准输入】中读取数据,并将结果写到【标准输出】中...
代码星球 ·2020-03-30

解读:Hadoop序列化类

序列化(serialization)是指将结构化的对象转化字节流,以便在进程间通信或写入硬盘永久存储。反序列化(deserialization)是指将字节流转回到结构化对象的过程。需要注意的是,能够在网络上传输的只能是字节流。所以,Map的中间结果在不同主机间Shuffle洗牌时,结构化对象将经历序列化(map结果写入...
代码星球 ·2020-03-29
首页上一页...2425262728下一页尾页