51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#ARK
大数据集群运维(22)搭建Spark所遇过的坑
一.经验1.SparkStreaming包含三种计算模式:nonstate.stateful.window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的...
代码星球
·
2020-09-20
数据
集群
运维
搭建
Spark
SparkStreaming入门到实战之(6)--sparkstreaming入门到实战
1.1什么是SparkStreaming SparkStreaming类似于ApacheStorm,用于流式数据的处理。根据其官方文档介绍,SparkStreaming有高吞吐量和容错能力强等特点。SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、Ze...
代码星球
·
2020-09-19
入门
实战
SparkStreaming
--sparkstreaming
Spark源码系列(十一)spark源码解析总结
==========Spark通信架构==========1、spark一开始使用akka作为网络通信框架,spark2.X版本以后完全抛弃akka,而使用netty作为新的网络通信框架。最主要原因:spark对akka没有维护,需要akka更新,spark的发展受到了akka的牵制,akka版本之间无法通信,即akk...
代码星球
·
2020-09-19
源码
Spark
系列
十一
spark
SparkStreaming入门到实战之(7)--Spark Streaming企业运用
==========SparkStreaming是什么==========1、SParkStreaming是Spark中一个组件,基于SparkCore进行构建,用于对流式进行处理,类似于Storm。2、SparkStreaming能够和SparkCore、SparkSQL来进行混合编程。3、SparkStreamin...
代码星球
·
2020-09-19
SparkStreaming
入门
实战
--Spark
Streaming
Spark SQL入门到实战之(3)sparkSql从入门到实战
1.1什么是SparkSQLSparkSQL:http://spark.apache.org/sql/SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将HiveSQL转换成Map...
代码星球
·
2020-09-19
入门
实战
Spark
SQL
sparkSql
SparkGraphX之(2)企业运用
==========SparkGraphX概述==========1、SparkGraphX是什么? (1)SparkGraphX是Spark的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX他的底层计算也是RDD计算,它和RDD共用一种存储形态...
代码星球
·
2020-09-19
SparkGraphX
企业
运用
Spark SQL入门到实战之(4)spark企业运用
==========SparkSQL==========1、SparkSQL是Spark的一个模块,可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC、ODBC服务器功能。2、SparkSQL的特点: (1)和SparkCore的无缝集成,可以在写整个RDD应用的...
代码星球
·
2020-09-19
Spark
SQL
入门
实战
spark
sparkcore入门到实战之(5)sparkcore企业运用
1、RDD全称弹性分布式数据集ResilientDistributedDataset它就是一个class。abstract class RDD[T: ClassTag]( @transient private var&nbs...
代码星球
·
2020-09-19
sparkcore
入门
实战
企业
运用
SSpark SQL入门到实战之(2)park SQL深度理解篇:模块实现、代码结构及执行流程总览
问题导读1、如何理解SQLCore?2、RDD支持的第三方格式有哪些?3、SQLContext如何对sql执行解析?摘要本文作者整理了对SparkSQL各个模块的实现情况、代码结构、执行流程情况以及分享了对SparkSQL的理解,无论是从源码实现,还是从SparkSQL实际使用角度,这些都很有参考价值。1、SQLCor...
代码星球
·
2020-09-19
SQL
SSpark
入门
实战
park
Spark SQL入门到实战之(1)深度理解篇:模块实现、代码结构及执行流程总览
问题导读1、什么是Catalyst?2、对Hive的兼容支持将转移到什么上?3、TreeNode具备哪些对节点的操作方法?摘要:本文作者整理了对SparkSQL各个模块的实现情况、代码结构、执行流程情况以及分享了对SparkSQL的理解,无论是从源码实现,还是从SparkSQL实际使用角度,这些都很有参考价值。在201...
代码星球
·
2020-09-19
Spark
SQL
入门
实战
深度
Spark源码系列(八)Spark Streaming实例分析
问题导读1,如何保存接收到的数据?2,如何处理接收到的数据?3,调用get或Compute方法获得RDD的流程有什么?这一章要讲SparkStreaming,讲之前首先回顾下它的用法,具体用法请参照《SparkStreaming编程讲解》。1、示例代码分析valssc=newStreamingContext(spark...
代码星球
·
2020-09-19
Spark
源码
系列
Streaming
实例分析
Spark源码系列(七)Spark on yarn具体实现
问题导读1、yarn提交作业的流程是怎样的?2、run方法在ApplicationMaster里面主要干了什么工作?3、把作业发布到yarn上面去执行,涉及到哪些类?本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Sparkonyarn的实现,1.0.0里面已经是一个stable的版本了,可...
代码星球
·
2020-09-19
Spark
源码
系列
on
yarn
Spark原始码系列(六)Shuffle的过程解析
问题导读:1、shuffle过程的划分?2、shuffle的中间结果如何存储?3、shuffle的数据如何拉取过来?Shuffle过程的划分Spark的操作模型是基于RDD的,当调用RDD的reduceByKey、groupByKey等类似的操作的时候,就需要有shuffle了。再拿出reduceByKey...
代码星球
·
2020-09-19
Spark
原始
系列
Shuffle
过程
Spark原始码系列(五)分布式缓存
问题导读:spark缓存是如何实现的?BlockManager与BlockManagerMaster的关系是什么? 这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。defpersist(newLevel:StorageLevel):this.type={ //StorageLe...
代码星球
·
2020-09-19
Spark
原始
系列
分布式
缓存
Spark源码系列(四)图解作业生命周期
问题导读:1.描述作业生命周期?2.资源是如何调度的?这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,letyouknow! 我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,R...
代码星球
·
2020-09-19
Spark
源码
系列
图解
作业
首页
上一页
...
11
12
13
14
15
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他