spark主题的文章列表，还有spark的技术要点_第6页

SparkStreaming入门到实战之(6)--sparkstreaming入门到实战

1.1什么是SparkStreaming SparkStreaming类似于ApacheStorm，用于流式数据的处理。根据其官方文档介绍，SparkStreaming有高吞吐量和容错能力强等特点。SparkStreaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、Ze...

代码星球 ·2020-09-19

Spark源码系列（十一）spark源码解析总结

==========Spark通信架构==========1、spark一开始使用akka作为网络通信框架，spark2.X版本以后完全抛弃akka，而使用netty作为新的网络通信框架。最主要原因：spark对akka没有维护，需要akka更新，spark的发展受到了akka的牵制，akka版本之间无法通信，即akk...

代码星球 ·2020-09-19

SparkStreaming入门到实战之(7)--Spark Streaming企业运用

==========SparkStreaming是什么==========1、SParkStreaming是Spark中一个组件，基于SparkCore进行构建，用于对流式进行处理，类似于Storm。2、SparkStreaming能够和SparkCore、SparkSQL来进行混合编程。3、SparkStreamin...

代码星球 ·2020-09-19

Spark SQL入门到实战之（3）sparkSql从入门到实战

1.1什么是SparkSQLSparkSQL：http://spark.apache.org/sql/SparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将HiveSQL转换成Map...

代码星球 ·2020-09-19

SparkGraphX之（2）企业运用

==========SparkGraphX概述==========1、SparkGraphX是什么？（1）SparkGraphX是Spark的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。（2）GraphX他的底层计算也是RDD计算，它和RDD共用一种存储形态...

代码星球 ·2020-09-19

Spark SQL入门到实战之（4）spark企业运用

==========SparkSQL==========1、SparkSQL是Spark的一个模块，可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC、ODBC服务器功能。2、SparkSQL的特点：（1）和SparkCore的无缝集成，可以在写整个RDD应用的...

代码星球 ·2020-09-19

sparkcore入门到实战之（5）sparkcore企业运用

1、RDD全称弹性分布式数据集ResilientDistributedDataset它就是一个class。abstract class RDD[T: ClassTag]( @transient private var&nbs...

代码星球 ·2020-09-19

SSpark SQL入门到实战之（2）park SQL深度理解篇：模块实现、代码结构及执行流程总览

问题导读1、如何理解SQLCore？2、RDD支持的第三方格式有哪些？3、SQLContext如何对sql执行解析？摘要本文作者整理了对SparkSQL各个模块的实现情况、代码结构、执行流程情况以及分享了对SparkSQL的理解，无论是从源码实现，还是从SparkSQL实际使用角度，这些都很有参考价值。1、SQLCor...

代码星球 ·2020-09-19

Spark SQL入门到实战之（1）深度理解篇：模块实现、代码结构及执行流程总览

问题导读1、什么是Catalyst？2、对Hive的兼容支持将转移到什么上？3、TreeNode具备哪些对节点的操作方法？摘要：本文作者整理了对SparkSQL各个模块的实现情况、代码结构、执行流程情况以及分享了对SparkSQL的理解，无论是从源码实现，还是从SparkSQL实际使用角度，这些都很有参考价值。在201...

代码星球 ·2020-09-19

Spark源码系列（八）Spark Streaming实例分析

问题导读1，如何保存接收到的数据？2，如何处理接收到的数据？3，调用get或Compute方法获得RDD的流程有什么？这一章要讲SparkStreaming，讲之前首先回顾下它的用法，具体用法请参照《SparkStreaming编程讲解》。1、示例代码分析valssc=newStreamingContext(spark...

代码星球 ·2020-09-19

Spark源码系列（七）Spark on yarn具体实现

问题导读1、yarn提交作业的流程是怎样的？2、run方法在ApplicationMaster里面主要干了什么工作？3、把作业发布到yarn上面去执行，涉及到哪些类？本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Sparkonyarn的实现，1.0.0里面已经是一个stable的版本了，可...

代码星球 ·2020-09-19

Spark原始码系列（六）Shuffle的过程解析

问题导读：1、shuffle过程的划分？2、shuffle的中间结果如何存储？3、shuffle的数据如何拉取过来？Shuffle过程的划分Spark的操作模型是基于RDD的，当调用RDD的reduceByKey、groupByKey等类似的操作的时候，就需要有shuffle了。再拿出reduceByKey...

代码星球 ·2020-09-19

Spark原始码系列（五）分布式缓存

问题导读：spark缓存是如何实现的？BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。defpersist(newLevel:StorageLevel):this.type={ //StorageLe...

代码星球 ·2020-09-19

Spark源码系列（四）图解作业生命周期

问题导读：1.描述作业生命周期？2.资源是如何调度的？这一章我们探索了Spark作业的运行过程，但是没把整个过程描绘出来，好，跟着我走吧，letyouknow！我们先回顾一下这个图，DriverProgram是我们写的那个程序，它的核心是SparkContext，回想一下，从api的使用角度，R...

代码星球 ·2020-09-19

Spark源码系列（三）作业运行过程

问题导读：1.如何进行作业划分？2.TaskScheduler如何提交Task？ 1、作业执行上一章讲了RDD的转换，但是没讲作业的运行，它和DriverProgram的关系是啥，和RDD的关系是啥？官方给的例子里面，一执行collect方法就能出结果，那我们就从collect开始看吧，进入RDD，找到col...

代码星球 ·2020-09-19