Spark主题的文章列表，还有Spark的技术要点_第5页

SparkSQL(五)——数据源

通用加载保存方法SparkSQL的默认数据源为Parquet格式。数据源为Parquet文件时，SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default，可修改默认数据源格式。此时，可以使用spark.read.load和spar.write.save方法，分别从parqu...

代码星球 ·2020-10-20

SparkSQL(四)——用户自定义函数

用户自定义聚合函数强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数，如 count()，countDistinct()，avg()，max()，min()。除此之外，用户可以设定自己的自定义聚合函数。弱类型用户自定义聚合函数通过继承UserDefinedAggr...

代码星球 ·2020-10-20

SparkSQL(三)——idea开发SparkSQL程序

首先导入maven依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version&...

代码星球 ·2020-10-20

SparkSQL(二)——基本操作

SparkSession新的起点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的...

代码星球 ·2020-10-20

spark安装和使用

local模式概述local模式就是在一台计算机上运行spark程序，通常用于在本机上练手和测试，它将线程映射为worker。 1）local:所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式;2）local[K]:指定使用几个线程来运行计算，...

代码星球 ·2020-10-20

spark计算模型

spark为什么比mapreduce快mapreduce的数据处理过程是：把数据从磁盘读到内存，在内存中完成计算，再写回磁盘。下一个mr程序要继续对这批数据进行处理，又要重复这一过程。有多少个mr程序，就有多少次读磁盘和写磁盘的过程，效率低下。spark的数据处理过程是：把数据读到内存之后，在多个RDD之间形成转换流，...

代码星球 ·2020-10-20

Hadoop概念学习系列之Hadoop、Spark学习路线

1Java基础：视频方面：推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入，java学习到javase，在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。&nb...

代码星球 ·2020-09-24

SparkStreaming入门到实战之(17)--大数据场景下数据异构之 Mysql实时写入HBase（借助canal kafka SparkStreaming）

背景：公司线下ETC机房有个Mycat集群，供订单系统使用，现需要进行数据异构将Mysql数据(近)实时写入另一套数据库用作读请求和数据归档用技术选型：binlog解析工具：阿里开源的canal 消息中间件：kafka 流式框架：SparkStreaming上代码...

代码星球 ·2020-09-20

SparkStreaming入门到实战之(16)--基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

1.Canal是什么？2.如何编写Canal客户端？3.如何编写一个数据库操作的Spark程序代码？4.开发Spark项目时容易发生哪些冲突问题？Spark中的SparkStreaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时分析处理MySQL中的...

代码星球 ·2020-09-20

大数据集群运维（32）spark开发环境详细教程1：IntelliJ IDEA使用详细说明

各种开发环境的搭建，其实都是听简单。甚至我们可以通过命令行来开发。而且最原始的编程，其实可以通过文本或则cmd即可。还有maven，sbt等。后来的发展过程中，为了更加方便我们编程，于是发展出来了，更高级的编程工具，Java有eclipse等工具，而Scala有IntelliJIDEA.当然eclipse也可以写Sca...

代码星球 ·2020-09-20

大数据集群运维（31）Spark提交任务时报beyond virtual memory limits错误

以Spark-Client模式运行，Spark-Submit时出现了下面的错误：User:hadoopName:SparkPiApplicationType:SPARKApplicationTags:YarnApplicationState:FAILEDFinalStatusReportedbyAM:FAILEDSta...

代码星球 ·2020-09-20

大数据集群运维（30）spark安装与使用（入门）

一：在linux下安装java环境（自行安装jdk）二：安装Scala2.9.3$tar-zxfscala-2.9.3.tgz$sudomvscala-2.9.3/usr/lib$sudovim/etc/profile#addthefollowinglinesattheendexportSCALA_HOME=/usr/...

代码星球 ·2020-09-20

大数据集群运维（29）Zeppelin-在flink和spark集群的安装

该教程主要面向Zeppelin的入门者。不需要太多的关于Linux,git,或其它工具的基础知识。如果你按照这里的方法逐项执行，就可以将Zeppelin正常运行起来。安装Zeppelin为Flink/Spark集群模式本教程假定用户有一个新的机器环境(物理机或 virtual 均可,最小安装&nbs...

代码星球 ·2020-09-20

大数据集群运维（27）Kylin 配置使用 Spark 构建 Cube

HDP版本：2.6.4.0Kylin版本：2.5.1机器：三台CentOS-7，8G内存Kylin的计算引擎除了MapReduce，还有速度更快的Spark，本文就以Kylin自带的示例kylinsalescube来测试一下Spark构建Cube的速度。一、配置Kylin的相关Spark参数在运行Sparkcubing...

代码星球 ·2020-09-20

大数据集群运维（22）搭建Spark所遇过的坑

一.经验1.SparkStreaming包含三种计算模式：nonstate.stateful.window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务，不用拷贝整个架包，只需拷贝被修改的文件，然后在目标服务器上编译打包。5.kafka的...

代码星球 ·2020-09-20