Spark主题的文章列表，还有Spark的技术要点_第4页

Installing Apache Spark on Ubuntu 16.04

SantoshSrinivason07Nov2016,taggedonApacheSpark,Analytics,DataMinin I'vefinallygottoalongpendingto-do-itemtoplaywithApacheSpark. Thefollowinginstallati...

代码星球 ·2020-12-17

spark启动后出现“JAVA_HOME not set” 异常和"org.apache.hadoop.security.AccessControlException"异常

/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh启动后执行jps命令，主节点上有Master进程，其他子节点上有Work进行，登录Spark管理界面查看集群状态（主节点）：http://master01:8080/ 到...

代码星球 ·2020-11-27

Spark的转化和行动（transformations和action）

//**********************装换操作*********************1、defmap[U:ClassTag](f:T=>U):RDD[U] 将函数应用于RDD的每一元素，并返回一个新的RDD2、deffilter(f:T=>Boolean):R...

代码星球 ·2020-11-27

列举spark所有算子

一、RDD概述 1、什么是RDD RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有...

代码星球 ·2020-11-27

Spark启动报错|java.io.FileNotFoundException: File does not exist: hdfs://hadoop101:9000/directory

atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:156)atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(Fs...

代码星球 ·2020-11-27

spark编译

由于我们所有的环境统一使用CDH的软件版本，并且对应的CDH版本是5.14.0这个版本，所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spark对应的5.14.0的CDH版本的软件spark的版本还停留在spark1.x，并且CDH版本的spark不支持sparkSQL的功能（sparkSQL模块...

代码星球 ·2020-11-26

spark在collect收集数据的时候出现outOfMemoryError:java heap space

spark的collect是action算子，所有最后会以数组的形式返回给driver端，当数据太大的时候就会出现堆内存溢出。OutofMemoryError:javaheapspace。在spark中默认的数据的存储是1G的大小，spark.default.memory(default1G)解决方案：以saveAsT...

代码星球 ·2020-11-26

spark在不同环境下的搭建|安装|local|standalone|yarn|HA|

常用于本地开发测试，本地还分为local单线程和local-cluster多线程;该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，直接运行在本地，便于调试，通常用来验证开发出来的应用程序逻辑上有没有问题。　　其中N代表可以使用N个线程，每个线程拥有一个core。如...

代码星球 ·2020-11-26

Docker 搭建Spark 依赖singularities/spark:2.2镜像

singularities/spark:2.2版本中Hadoop版本：2.8.2Spark版本:2.2.1Scala版本：2.11.8Java版本：1.8.0_151拉取镜像：[root@localhostdocker-spark-2.1.0]#dockerpullsingularities/spark查看：[root...

代码星球 ·2020-10-21

Docker 搭建Spark 依赖sequenceiq/spark:1.6镜像

使用Docker-Hub中Spark排行最高的sequenceiq/spark:1.6.0。操作：拉取镜像：[root@localhosthome]#dockerpullsequenceiq/spark:1.6.0Tryingtopullrepositorydocker.io/sequenceiq/spark...启动...

代码星球 ·2020-10-21

SparkStreaming(三)——自定义数据源

从socketTextStream说起查看socketTextStream源码defsocketTextStream(hostname:String,port:Int,storageLevel:StorageLevel=StorageLevel.MEMORY_AND_DISK_SER_2):ReceiverInputD...

代码星球 ·2020-10-20

SparkSQL(一)——概述

什么是sparksql它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口，而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点，专门用于访问结构化的数据。sql语句在底层转换成RDD，类似于hql语句在底层转换成mr程序，但是sparksql的...

代码星球 ·2020-10-20

SparkStreaming(二)——wordcount

需求：使用netcat工具向9999端口不断的发送数据，通过SparkStreaming读取端口数据并统计不同单词出现的次数前期准备1）消除idea控制台过多的日志信息1.到spark/conf目录下，将log4j.properties.template文件下载到本地，重命名为log4j.propertie...

代码星球 ·2020-10-20

SparkSQL(六)——案例实战

首先我们的数据源如下： tbDate这张表记录的是时间信息；tbStockDetail这张表记录的订单的详细信息；tbStock这张表将订单与实践和地点两个维度的信息连接在一起。数据属性如下：每个订单可能包含多个货品，每个订单可以产生多次交易，不同的货品有不同的单价。也就是说：tbStock与tbStockD...

代码星球 ·2020-10-20

SparkStreaming(一)——概述

SparkStreaming是什么？SparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而...

代码星球 ·2020-10-20