oop主题的文章列表，还有oop的技术要点_第36页

Hadoop集群搭建

注意：apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系######注意######如果是租用的服务器...

代码星球 ·2020-03-30

Hadoop运维手记

1.处理hadoop的namenode宕机　　处理措施：进入hadoop的bin目录，重启namenode服务　　操作命令：cdpath/to/hadoop/bin　　./hadoop-daemon.shstartnamenode2.处理hadoop的jobtacker宕机　　处理措施：进入hadoop的bin目录，重...

代码星球 ·2020-03-30

Hadoop性能调优

1.Jvm重用JVM重用不是指同一Job的两个或两个以上的Task同时运行于同一JVM上，而是N个Task按顺序在同一个Jvm上运行，即省去了Jvm关闭和再重启的时间。N值可以在Hadoop的mapre-site.xml文件mapreduce.job.jvm.numtasks(默认1)属性进行设置。也可在hive的执行...

代码星球 ·2020-03-30

Hadoop资源调度器

hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种，分别为：1.基于队列的FIFO(先进先出)　　hadoop默认的资源调度器。优点：简单明了。缺点：忽略了不同作业的需求差异。2.计算能力调度器Capac...

代码星球 ·2020-03-30

配置hadoop集群的lzo压缩

MR-Job中使用lzop详见MR案例：Job中使用Lzo压缩1).配置前的环境准备#yum-yinstalllzo-develzlib-develgccautoconfautomakelibtool2).(all)在集群的所有节点上安装Lzo库　下载、解压，然后编译。并将/usr/local/hadoop/lzo-2...

代码星球 ·2020-03-30

解读：hadoop压缩格式

Hadoop中用得比较多的4种压缩格式：lzo，gzip，snappy，bzip2。它们的优缺点和应用场景如下：1).gzip压缩优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoopnative库；大部分linux系统都自带gzip命令...

代码星球 ·2020-03-30

解读：Hadoop Archive

hdfs并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode中占用150byte内存。如果存储大量的小文件，它们会吃掉NameNode节点的大量内存。MR案例：小文件处理方案HadoopArchive或者HAR，是一个高效地将小文件放入HDFS块中的文件存档工具。它能将多个小...

代码星球 ·2020-03-30

hadoop2对应的eclipse插件使用

1.eclipse插件安装步骤：a).把插件复制到eclipse安装目录plugins文件夹下b).打开eclipse的Window---Preference---HadoopM/R---指向hadoop-2.2.0安装目录：只要在Windows上将hadoop-2.2.0.tar.gz解压即可c).Window---...

代码星球 ·2020-03-30

hadoop随手笔记

1.HadoopStreaming是为了方便不太熟悉java用户编写MR程序的工具。用户可以将任何可执行文件（C++）或者脚本(python，ruby)作为Mapper/Reducer,提高了效率。HadoopSteaming要求用户编写的Mapper/Reducer从【标准输入】中读取数据，并将结果写到【标准输出】中...

代码星球 ·2020-03-30

Sqoop相关

1. 常规步骤(安装在一台节点上即可)由于sqoop2配置相对比较麻烦，此次使用的是sqoop1进行演示。上传sqoop-1.4.4.bin_hadoop-2.0.4-alpha.tar.gz文件至/hadoop目录下，解压并重命名为sqoop-1.4.4，配置/etc/profile文件并source刷新。...

代码星球 ·2020-03-29

解读：Hadoop序列化类

序列化（serialization）是指将结构化的对象转化字节流，以便在进程间通信或写入硬盘永久存储。反序列化（deserialization）是指将字节流转回到结构化对象的过程。需要注意的是，能够在网络上传输的只能是字节流。所以，Map的中间结果在不同主机间Shuffle洗牌时，结构化对象将经历序列化(map结果写入...

代码星球 ·2020-03-29

linux /dev 常见特殊设备介绍与应用[loop,null,zero,full,random]

linux是文件型系统，所有硬件如软件都会在对于的目录下面有相应的文件表示。对于dev这个目录，我们知道它下面的文件，表示的是linux的设备。在windows系统中，设备大家很好理解，象硬盘，磁盘指的是实实在在硬件。而在文件系统的linux下面，都有对于文件与这些设备关联的。访问它们就可以放到实际硬件，想想还是lin...

代码星球 ·2020-03-29

JS事件循环(Event Loop)机制

众所周知，为了与浏览器进行交互，Javascript是一门非阻塞单线程脚本语言。为何单线程？因为如果在DOM操作中，有两个线程一个添加节点，一个删除节点，浏览器并不知道以哪个为准，所以只能选择一个主线程来执行代码，以防止冲突。虽然如今添加了webworker等新技术，但其依然只是主线程的子线程，并不能执行诸如I/O类的...

代码星球 ·2020-03-29

sqoop数据导出导入命令

1.将mysql中的数据导入到hive中sqoopimport--connectjdbc:mysql://localhost:3306/sqoop--direct--usernameroot--password123456--tabletb1--hive-tabletb1--hive-import-m1其中--tabl...

IT猿 ·2020-03-28

大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）

大数据时代之hadoop(一)：hadoop安装大数据时代之hadoop(二)：hadoop脚本解析大数据时代之hadoop(三)：hadoop数据流（生命周期）大数据时代之hadoop(四)：hadoop分布式文件系统（HDFS) &n...

IT猿 ·2020-03-27