#hadoop

Hadoop概念学习系列之Hadoop、Spark学习路线

 1Java基础:   视频方面:     推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。&nb...

hadoop入门到实战(10)hive从入门到实战四

8.1Hadoop源码编译支持Snappy压缩8.1.1资源准备1、CentOS联网  配置CentOS能连接外网。Linux虚拟机pingwww.baidu.com是畅通的。  注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(hadoop源码、JDK8、m...
代码星球 ·2020-09-19

hadoop入门到实战(9)hive从入门到实战三

  https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*]&...
代码星球 ·2020-09-19

hadoop入门到实战(7)hive从入门到实战一

1.1什么是Hive  Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。  本质是:将HQL转化成MapReduc...
代码星球 ·2020-09-19

hadoop入门到实战(8)hive从入门到实战二

4.1创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加ifnotexists判断。(标...
代码星球 ·2020-09-19

hadoop入门到实战(6)hive常用优化方法总结

问题导读:1、如何理解列裁剪和分区裁剪?2、sortby代替orderby优势在哪里?3、如何调整groupby配置?4、如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、M...

大数据集群运维(1)Hadoop + Hive + HBase + Kylin伪分布式安装

问题导读1. Centos7如何安装配置?2. linux网络配置如何进行?3. linux环境下java 如何安装?4. linux环境下SSH免密码登录如何配置?5. linux环境下Hadoop2.7 如何安装?6. linux环境下...

Hadoop入门到实战(5)sql语句大全(详细)

查看所有数据库showdatabases; 1查看当前使用的数据库selectdatabase(); 1创建数据库createdatabases数据库名charset=utf8; 5.删除数据库dropdatabase数据库名 16.使用数据句库usedatabase数据库名&n...

Spark报错java.io.IOException: Could not locate executable nullinwinutils.exe in the Hadoop binaries.

Spark读取JSON文件时运行报错java.io.IOException:Couldnotlocateexecutablenullinwinutils.exeintheHadoopbinaries. 需要文件百度网盘链接点击进入提取码:eku1先把winutils.exe文件放入hadoop的bin目录里...

Linux Hadoop2.7.3 安装(单机模式) 二

 LinuxHadoop2.7.3安装(单机模式)一 LinuxHadoop2.7.3安装(单机模式)二  YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceM...

Linux Hadoop2.7.3 安装(单机模式) 一

LinuxHadoop2.7.3安装(单机模式)一 LinuxHadoop2.7.3安装(单机模式)二 java环境安装 http://www.cnblogs.com/zeze/p/5902124.html java环境安装配置etc/profile:exportJAVA_HOM...

hadoop入门到实战(3)hive数据仓库入门到实战及面试

第一章、hive入门一、hive入门手册1.什么是数据仓库1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。1.2传统数据仓库面临的挑战(1)无法满足快速增长的海量数据存储需求(2)无法有效处理不同类型的数据(3)计算和处理能力不足1....

hadoop入门到实战(2)hive经典练习题

一.建表和加载数据1.student表createtableifnotexistsstudent(s_idint,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby',';loaddatalocalinpath'/roo...

hadoop入门到实战(1)hive优化总结

可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析;它可以使已经存储的数据结构化;可以直接访问存储在ApacheHDFS或其他数据存储系统(如ApacheHBase)中的文件;Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎;它提...
首页上一页...89101112...下一页尾页