51dev.com IT技术开发者社区

51dev.com 技术开发者社区

【Hadoop离线基础总结】MapReduce入门

【Hadoop离线基础总结】MapReduce入门

Mapreduce思想概述MapReduce的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景)。最主要的特点就是把一个大的问题,划分成很多小的子问题,并且每个小的子问题的求取思路与我们大问题的求取思路一样。最主要有两个阶段:一个map阶段,负责拆分;一个是reduce阶段,负责...

【Hadoop离线基础总结】HDFS的API操作

【Hadoop离线基础总结】HDFS的API操作

创建maven工程并导入jar包注意由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载。要用CDH的jar包,要先添加一...

【Hadoop离线基础总结】HDFS详细介绍

【Hadoop离线基础总结】HDFS详细介绍

分布式文件系统设计思路概述只有一台机器时的文件查找:hello.txt/export/servers/hello.txt如果有多台机器时的文件查找:hello.txtnode02/export/servers/hello.txt  为了解决数据丢失的问题,引入副本机制,保证数据不会丢失  如果对文件...

【Hadoop离线基础总结】HDFS入门介绍

【Hadoop离线基础总结】HDFS入门介绍

概述HDFS全称为HadoopDistributeFileSystem,也就是Hadoop分布式文件系统,是Hadoop的核心组件之一。分布式文件系统是横跨在多台计算机上的存储系统,主要解决的就是大数据存储的问题特性master/slave架构HDFS集群一般是由一个NameNode和一定数目的Da...

【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建

【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建

服务规划步骤第一步:上传压缩包并解压cd/export/softwares/tar-zxvfhadoop-2.6.0-cdh5.14.0.tar.gz-C../servers/第二步:查看Hadoop支持的压缩方式以及本地库cd/export/servers/hadoop-2.6.0-cdh5.14...

【Hadoop离线基础总结】CDH版本的zookeeper环境搭建

【Hadoop离线基础总结】CDH版本的zookeeper环境搭建

下载下载地址http://archive.cloudera.com/cdh5/cdh/5/修改配置文件创建ZooKeeper数据存放目录mkdir-p/export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas修改ZooKeeper配置文件cd/export/s...

【Hadoop离线基础总结】完全分布式环境搭建

【Hadoop离线基础总结】完全分布式环境搭建

服务规划适用于工作当中正式环境搭建安装步骤第一步:安装包解压停止之前的Hadoop集群的所有服务,并删除所有机器的Hadoop安装包,然后重新解压Hadoop压缩包三台机器都执行rm-rf/export/servers/hadoop-2.7.5/在第一台机器解压压缩包cd/export/softwa...

【Hadoop离线基础总结】伪分布模式环境搭建

【Hadoop离线基础总结】伪分布模式环境搭建

服务规划适用于学习测试开发集群模式步骤第一步:停止单节点集群,删除/export/servers/hadoop-2.7.5/hadoopDatas,重新创建文件夹停止单节点集群cd/export/servers/hadoop-2.7.5/sbin/stop-dfs.shsbin/stop-yarn....

【Hadoop离线基础总结】Apache Hadoop的三种运行环境介绍及standAlone环境搭建

【Hadoop离线基础总结】Apache Hadoop的三种运行环境介绍及standAlone环境搭建

三种运行环境standAlone环境单机版的hadoop运行环境伪分布式环境主节点都在一台机器上,从节点分开到其他机器上(可以借助三台机器来实现)完全分布式环境主节点全部分散到不同机器上(NameNodeActive,NameNodeStandBy,ResourceManager主节点,Resour...

【Hadoop离线基础总结】Hadoop的架构模型

【Hadoop离线基础总结】Hadoop的架构模型

1.x的版本架构模型介绍架构图HDFS分布式文件存储系统(典型的主从架构)NameNode:集群当中的主节点,主要用于维护集群当中的元数据信息,以及接受用户的请求,处理用户的请求SecondaryNameNode:主要是辅助NameNode管理元数据信息DataNode:集群当中的从节点,主要用于存...

【Hadoop离线基础总结】zookeeper的介绍以及集群环境搭建、网络编程和RPC的简单了解

【Hadoop离线基础总结】zookeeper的介绍以及集群环境搭建、网络编程和RPC的简单了解

ZooKeeper介绍概述ZooKeeper是一个分布式协调服务的开源框架,主要用来解决分布式集群中应用系统的一致性问题。例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper本质上是一个分布式的小文件存储系统(ZooKeeper上面的每个文件内容最好不要超过1M),提供基于类似文件系统的目...

【Hadoop离线基础总结】大数据集群环境准备

【Hadoop离线基础总结】大数据集群环境准备

三台虚拟机关闭防火墙centOS7servicefirewalldstop->关闭防火墙chkconfigfirewalldoff->开机关闭防火墙systemctlstatusfirewalld.service->查看当前防火墙状态三台虚拟机关闭selinuxvim/etc/se...

【Hadoop离线基础总结】linux的shell编程

【Hadoop离线基础总结】linux的shell编程

基本了解概述Shell是一个用C语言编写的程序,通过shell用户可以访问操作系统内核服务,它类似于DOS下的command和后来的cmd.exe。Shell既是一种命令,也是一种程序设计语言ShellScripts是一种为Shell编写的脚本程序。Shell编程一般指Shell脚本编程,不是指开发...

【Hadoop离线基础总结】linux基础增强

【Hadoop离线基础总结】linux基础增强

查找命令grep命令 (printlinesmatchingapattern)概述:grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来格式:grep[option]pattern[file]使用实例:ps-ef|grepsshd->查找指定ssh服务进程ps...

【Linux基础总结】Shell 基础编程

【Linux基础总结】Shell 基础编程

重启虚拟机遇到磁盘损坏如何解决Shell编程中变量的声明、引用及作用域Shell程序概述以文件形式存放批量的Linux命令集合,该文件能够被Shell解释执行,这种文件就是Shell脚本程序通常由一段Linux命令、Shell命令、控制语句及注释语句组成编写Shell脚本是纯文本文件,可以使用任何文...