51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#AngularJs实战
hadoop入门到实战(3)hive数据仓库入门到实战及面试
第一章、hive入门一、hive入门手册1.什么是数据仓库1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。1.2传统数据仓库面临的挑战(1)无法满足快速增长的海量数据存储需求(2)无法有效处理不同类型的数据(3)计算和处理能力不足1....
代码星球
·
2020-09-05
入门
实战
hadoop
hive
数据
sparkcore入门到实战之(3)弹性式数据集RDD
一、RDD简介二、创建RDD 2.1由现有集合创建 2.2引用外部存储系统中的数据集  ...
代码星球
·
2020-09-05
sparkcore
入门
实战
弹性
数据
SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka
一、版本说明二、项目依赖三、整合Kafka 3.1ConsumerRecord 3.2生产者属性  ...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume
一、简介二、推送式方法 2.1配置日志收集Flume 2.2项目依赖 &...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
SparkStreaming入门到实战之(3)--Spark Streaming与流处理
一、流处理 1.1静态数据处理 1.2流处理二、SparkStreaming &nb...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
SparkStreaming入门到实战之(2)--Spark Streaming 基本操作
一、案例引入 3.1StreamingContext 3.2数据源 &n...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
clickhouse入门到实战及面试(三)
第一章、clickhouse入门一、ClickHouse介绍ClickHouse(开源)是一个面向列的数据库管理系统(DBMS),用于在线分析处理查询(OLAP)。关键词:开源、面向列、联机分析处理(OLAP)ClickHouse不仅查询速度快(相较于hive等类似的分析型DBMS),而且硬件使用效率、容错性、可靠性、...
代码星球
·
2020-09-05
clickhouse
入门
实战
面试
hadoop入门到实战(2)hive经典练习题
一.建表和加载数据1.student表createtableifnotexistsstudent(s_idint,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby',';loaddatalocalinpath'/roo...
代码星球
·
2020-09-05
hadoop
入门
实战
hive
经典
flink入门到实战(6)flink批处理从0到1
介绍:flink提供了大量的已经实现好的source方法,你也可以自定义source通过实现sourceFunction接口来自定义无并行度的source,或者你也可以通过实现ParallelSourceFunction 接口or继承RichParallelSourceFunction 来自定义有并...
代码星球
·
2020-09-05
flink
入门
实战
批处理
flink入门到实战(4)flink基础篇
Flink面试--核心概念和基础考察1、简单介绍一下Flink2、Flink相比传统的SparkStreaming有什么区别?3、Flink的组件栈有哪些? 面试知识带你,分为以下几个部分: 第一部分:Flink中的核心概念和基础篇,包含了Flink的整体介绍、核...
代码星球
·
2020-09-05
flink
入门
实战
基础
flink入门到实战(3)flink进阶篇
Flink面试--进阶篇1、Flink是如何支持批流一体的?2、Flink是如何做到高效的数据交换的?3、Flink是如何做容错的?4、Flink分布式快照的原理是什么?5、Flink是如何保证Exactly-once语义的?6、Flink的kafka连接器有什么特别的地方?7、说说Flink的内存管理是如何做的?8、...
代码星球
·
2020-09-05
flink
入门
实战
进阶
hadoop入门到实战(1)hive优化总结
可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析;它可以使已经存储的数据结构化;可以直接访问存储在ApacheHDFS或其他数据存储系统(如ApacheHBase)中的文件;Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎;它提...
代码星球
·
2020-09-05
hadoop
入门
实战
hive
优化
flink入门到实战(2)flink优化总结
开启MicroBatch或MiniBatch(提升吞吐)MicroBatch和MiniBatch都是微批处理,只是微批的触发机制略有不同。原理同样是缓存一定的数据后再触发处理,以减少对State的访问,从而提升吞吐并减少数据的输出量。MiniBatch主要依靠在每个Task上注册的Timer线程来触发微批,需要消耗一定...
代码星球
·
2020-09-05
flink
入门
实战
优化
总结
flink入门到实战(1)入门学习
Flink学习笔记一.简介1.定义:针对流数据和批数据的分布式处理引擎。它主要是由Java代码实现。。2.应用场景:流数据:把所有任务当成流来处理,处理观察和分析连续事件产生的数据。3.重要角色:①Client:用来提交任务给JobManager。②JobManager:分发任务给TaskManager去执行。...
代码星球
·
2020-09-05
入门
flink
实战
学习
hadoop入门到实战(13)Flume从入门到实战
1.1Flume定义 Flume(水槽)是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断...
代码星球
·
2020-09-05
入门
实战
hadoop
Flume
首页
上一页
...
18
19
20
21
22
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他