#ADO

hadoop入门到实战(9)hive从入门到实战三

  https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*]&...
代码星球 ·2020-09-19

hadoop入门到实战(7)hive从入门到实战一

1.1什么是Hive  Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。  本质是:将HQL转化成MapReduc...
代码星球 ·2020-09-19

hadoop入门到实战(8)hive从入门到实战二

4.1创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加ifnotexists判断。(标...
代码星球 ·2020-09-19

hadoop入门到实战(6)hive常用优化方法总结

问题导读:1、如何理解列裁剪和分区裁剪?2、sortby代替orderby优势在哪里?3、如何调整groupby配置?4、如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、M...

大数据集群运维(1)Hadoop + Hive + HBase + Kylin伪分布式安装

问题导读1. Centos7如何安装配置?2. linux网络配置如何进行?3. linux环境下java 如何安装?4. linux环境下SSH免密码登录如何配置?5. linux环境下Hadoop2.7 如何安装?6. linux环境下...

Hadoop入门到实战(5)sql语句大全(详细)

查看所有数据库showdatabases; 1查看当前使用的数据库selectdatabase(); 1创建数据库createdatabases数据库名charset=utf8; 5.删除数据库dropdatabase数据库名 16.使用数据句库usedatabase数据库名&n...

readonly与disabled的区别

readonly只对<input>和<textarea>标签有效disabled对所有表单元素都有效,包括:<input>,<textarea>,<button>,<label>,<option>,<select>等read...
代码星球 ·2020-09-12

Spark报错java.io.IOException: Could not locate executable nullinwinutils.exe in the Hadoop binaries.

Spark读取JSON文件时运行报错java.io.IOException:Couldnotlocateexecutablenullinwinutils.exeintheHadoopbinaries. 需要文件百度网盘链接点击进入提取码:eku1先把winutils.exe文件放入hadoop的bin目录里...

Linux Hadoop2.7.3 安装(单机模式) 二

 LinuxHadoop2.7.3安装(单机模式)一 LinuxHadoop2.7.3安装(单机模式)二  YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceM...

Linux Hadoop2.7.3 安装(单机模式) 一

LinuxHadoop2.7.3安装(单机模式)一 LinuxHadoop2.7.3安装(单机模式)二 java环境安装 http://www.cnblogs.com/zeze/p/5902124.html java环境安装配置etc/profile:exportJAVA_HOM...

hadoop入门到实战(3)hive数据仓库入门到实战及面试

第一章、hive入门一、hive入门手册1.什么是数据仓库1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。1.2传统数据仓库面临的挑战(1)无法满足快速增长的海量数据存储需求(2)无法有效处理不同类型的数据(3)计算和处理能力不足1....

hadoop入门到实战(2)hive经典练习题

一.建表和加载数据1.student表createtableifnotexistsstudent(s_idint,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby',';loaddatalocalinpath'/roo...

hadoop入门到实战(1)hive优化总结

可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析;它可以使已经存储的数据结构化;可以直接访问存储在ApacheHDFS或其他数据存储系统(如ApacheHBase)中的文件;Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎;它提...

hadoop入门到实战(13)Flume从入门到实战

1.1Flume定义  Flume(水槽)是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。  在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断...
代码星球 ·2020-09-05
首页上一页...1213141516...下一页尾页