#spark

SparkStreaming入门到实战之(6)--sparkstreaming入门到实战

1.1什么是SparkStreaming  SparkStreaming类似于ApacheStorm,用于流式数据的处理。根据其官方文档介绍,SparkStreaming有高吞吐量和容错能力强等特点。SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、Ze...

Spark源码系列(十一)spark源码解析总结

==========Spark通信架构==========1、spark一开始使用akka作为网络通信框架,spark2.X版本以后完全抛弃akka,而使用netty作为新的网络通信框架。最主要原因:spark对akka没有维护,需要akka更新,spark的发展受到了akka的牵制,akka版本之间无法通信,即akk...

SparkStreaming入门到实战之(7)--Spark Streaming企业运用

==========SparkStreaming是什么==========1、SParkStreaming是Spark中一个组件,基于SparkCore进行构建,用于对流式进行处理,类似于Storm。2、SparkStreaming能够和SparkCore、SparkSQL来进行混合编程。3、SparkStreamin...

Spark SQL入门到实战之(3)sparkSql从入门到实战

  1.1什么是SparkSQLSparkSQL:http://spark.apache.org/sql/SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将HiveSQL转换成Map...

SparkGraphX之(2)企业运用

==========SparkGraphX概述==========1、SparkGraphX是什么?  (1)SparkGraphX是Spark的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。  (2)GraphX他的底层计算也是RDD计算,它和RDD共用一种存储形态...
代码星球 ·2020-09-19

Spark SQL入门到实战之(4)spark企业运用

==========SparkSQL==========1、SparkSQL是Spark的一个模块,可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC、ODBC服务器功能。2、SparkSQL的特点:  (1)和SparkCore的无缝集成,可以在写整个RDD应用的...

sparkcore入门到实战之(5)sparkcore企业运用

1、RDD全称弹性分布式数据集ResilientDistributedDataset它就是一个class。abstract class RDD[T: ClassTag](    @transient private var&nbs...

SSpark SQL入门到实战之(2)park SQL深度理解篇:模块实现、代码结构及执行流程总览

问题导读1、如何理解SQLCore?2、RDD支持的第三方格式有哪些?3、SQLContext如何对sql执行解析?摘要本文作者整理了对SparkSQL各个模块的实现情况、代码结构、执行流程情况以及分享了对SparkSQL的理解,无论是从源码实现,还是从SparkSQL实际使用角度,这些都很有参考价值。1、SQLCor...

Spark SQL入门到实战之(1)深度理解篇:模块实现、代码结构及执行流程总览

问题导读1、什么是Catalyst?2、对Hive的兼容支持将转移到什么上?3、TreeNode具备哪些对节点的操作方法?摘要:本文作者整理了对SparkSQL各个模块的实现情况、代码结构、执行流程情况以及分享了对SparkSQL的理解,无论是从源码实现,还是从SparkSQL实际使用角度,这些都很有参考价值。在201...

Spark源码系列(八)Spark Streaming实例分析

问题导读1,如何保存接收到的数据?2,如何处理接收到的数据?3,调用get或Compute方法获得RDD的流程有什么?这一章要讲SparkStreaming,讲之前首先回顾下它的用法,具体用法请参照《SparkStreaming编程讲解》。1、示例代码分析valssc=newStreamingContext(spark...

Spark源码系列(七)Spark on yarn具体实现

问题导读1、yarn提交作业的流程是怎样的?2、run方法在ApplicationMaster里面主要干了什么工作?3、把作业发布到yarn上面去执行,涉及到哪些类?本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Sparkonyarn的实现,1.0.0里面已经是一个stable的版本了,可...
代码星球 ·2020-09-19

Spark原始码系列(六)Shuffle的过程解析

 问题导读:1、shuffle过程的划分?2、shuffle的中间结果如何存储?3、shuffle的数据如何拉取过来?Shuffle过程的划分Spark的操作模型是基于RDD的,当调用RDD的reduceByKey、groupByKey等类似的操作的时候,就需要有shuffle了。再拿出reduceByKey...

Spark原始码系列(五)分布式缓存

问题导读:spark缓存是如何实现的?BlockManager与BlockManagerMaster的关系是什么? 这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。defpersist(newLevel:StorageLevel):this.type={ //StorageLe...

Spark源码系列(四)图解作业生命周期

问题导读:1.描述作业生命周期?2.资源是如何调度的?这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,letyouknow!  我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,R...

Spark源码系列(三)作业运行过程

问题导读:1.如何进行作业划分?2.TaskScheduler如何提交Task? 1、作业执行上一章讲了RDD的转换,但是没讲作业的运行,它和DriverProgram的关系是啥,和RDD的关系是啥?官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到col...
首页上一页...45678...下一页尾页