#AngularJs实战

hadoop入门到实战(3)hive数据仓库入门到实战及面试

第一章、hive入门一、hive入门手册1.什么是数据仓库1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。1.2传统数据仓库面临的挑战(1)无法满足快速增长的海量数据存储需求(2)无法有效处理不同类型的数据(3)计算和处理能力不足1....

sparkcore入门到实战之(3)弹性式数据集RDD

 ​一、RDD简介二、创建RDD        2.1由现有集合创建        2.2引用外部存储系统中的数据集   ...

SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka

​一、版本说明二、项目依赖三、整合Kafka        3.1ConsumerRecord        3.2生产者属性   ...

SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume

​一、简介二、推送式方法        2.1配置日志收集Flume        2.2项目依赖     &...

SparkStreaming入门到实战之(3)--Spark Streaming与流处理

​一、流处理        1.1静态数据处理        1.2流处理二、SparkStreaming    &nb...

SparkStreaming入门到实战之(2)--Spark Streaming 基本操作

​一、案例引入        3.1StreamingContext        3.2数据源     &n...

clickhouse入门到实战及面试(三)

第一章、clickhouse入门一、ClickHouse介绍ClickHouse(开源)是一个面向列的数据库管理系统(DBMS),用于在线分析处理查询(OLAP)。关键词:开源、面向列、联机分析处理(OLAP)ClickHouse不仅查询速度快(相较于hive等类似的分析型DBMS),而且硬件使用效率、容错性、可靠性、...

hadoop入门到实战(2)hive经典练习题

一.建表和加载数据1.student表createtableifnotexistsstudent(s_idint,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby',';loaddatalocalinpath'/roo...

flink入门到实战(6)flink批处理从0到1

介绍:flink提供了大量的已经实现好的source方法,你也可以自定义source通过实现sourceFunction接口来自定义无并行度的source,或者你也可以通过实现ParallelSourceFunction 接口or继承RichParallelSourceFunction 来自定义有并...
代码星球 ·2020-09-05

flink入门到实战(4)flink基础篇

Flink面试--核心概念和基础考察1、简单介绍一下Flink2、Flink相比传统的SparkStreaming有什么区别?3、Flink的组件栈有哪些?    面试知识带你,分为以下几个部分: 第一部分:Flink中的核心概念和基础篇,包含了Flink的整体介绍、核...
代码星球 ·2020-09-05

flink入门到实战(3)flink进阶篇

Flink面试--进阶篇1、Flink是如何支持批流一体的?2、Flink是如何做到高效的数据交换的?3、Flink是如何做容错的?4、Flink分布式快照的原理是什么?5、Flink是如何保证Exactly-once语义的?6、Flink的kafka连接器有什么特别的地方?7、说说Flink的内存管理是如何做的?8、...
代码星球 ·2020-09-05

hadoop入门到实战(1)hive优化总结

可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析;它可以使已经存储的数据结构化;可以直接访问存储在ApacheHDFS或其他数据存储系统(如ApacheHBase)中的文件;Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎;它提...

flink入门到实战(2)flink优化总结

开启MicroBatch或MiniBatch(提升吞吐)MicroBatch和MiniBatch都是微批处理,只是微批的触发机制略有不同。原理同样是缓存一定的数据后再触发处理,以减少对State的访问,从而提升吞吐并减少数据的输出量。MiniBatch主要依靠在每个Task上注册的Timer线程来触发微批,需要消耗一定...

flink入门到实战(1)入门学习

Flink学习笔记一.简介1.定义:​针对流数据和批数据的分布式处理引擎。它主要是由Java代码实现。。2.应用场景:​流数据:把所有任务当成流来处理,处理观察和分析连续事件产生的数据。3.重要角色:​①Client:用来提交任务给JobManager。​②JobManager:分发任务给TaskManager去执行。...
代码星球 ·2020-09-05

hadoop入门到实战(13)Flume从入门到实战

1.1Flume定义  Flume(水槽)是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。  在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断...
代码星球 ·2020-09-05
首页上一页...1819202122...下一页尾页