51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#spark
Installing Apache Spark on Ubuntu 16.04
SantoshSrinivason07Nov2016,taggedonApacheSpark,Analytics,DataMinin I'vefinallygottoalongpendingto-do-itemtoplaywithApacheSpark. Thefollowinginstallati...
代码星球
·
2020-12-17
Installing
Apache
Spark
on
Ubuntu
spark启动后出现“JAVA_HOME not set” 异常和"org.apache.hadoop.security.AccessControlException"异常
/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://master01:8080/ 到...
代码星球
·
2020-11-27
异常
spark
启动
出现
JAVA
Spark的转化和行动(transformations和action)
//**********************装换操作*********************1、defmap[U:ClassTag](f:T=>U):RDD[U] 将函数应用于RDD的每一元素,并返回一个新的RDD2、deffilter(f:T=>Boolean):R...
代码星球
·
2020-11-27
Spark
转化
行动
transformations
action
列举spark所有算子
一、RDD概述 1、什么是RDD RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有...
代码星球
·
2020-11-27
列举
spark
所有
算子
Spark启动报错|java.io.FileNotFoundException: File does not exist: hdfs://hadoop101:9000/directory
atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:156)atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(Fs...
代码星球
·
2020-11-27
Spark
启动
报错
java.io.FileNotFoundException
File
spark编译
由于我们所有的环境统一使用CDH的软件版本,并且对应的CDH版本是5.14.0这个版本,所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spark对应的5.14.0的CDH版本的软件spark的版本还停留在spark1.x,并且CDH版本的spark不支持sparkSQL的功能(sparkSQL模块...
代码星球
·
2020-11-26
spark
编译
spark在collect收集数据的时候出现outOfMemoryError:java heap space
spark的collect是action算子,所有最后会以数组的形式返回给driver端,当数据太大的时候就会出现堆内存溢出。OutofMemoryError:javaheapspace。在spark中默认的数据的存储是1G的大小,spark.default.memory(default1G)解决方案:以saveAsT...
代码星球
·
2020-11-26
spark
collect
收集
数据
时候
spark在不同环境下的搭建|安装|local|standalone|yarn|HA|
常用于本地开发测试,本地还分为local单线程和local-cluster多线程;该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,直接运行在本地,便于调试,通常用来验证开发出来的应用程序逻辑上有没有问题。 其中N代表可以使用N个线程,每个线程拥有一个core。如...
代码星球
·
2020-11-26
spark
不同
环境
搭建
安装
Docker 搭建Spark 依赖singularities/spark:2.2镜像
singularities/spark:2.2版本中Hadoop版本:2.8.2Spark版本:2.2.1Scala版本:2.11.8Java版本:1.8.0_151拉取镜像:[root@localhostdocker-spark-2.1.0]#dockerpullsingularities/spark查看:[root...
代码星球
·
2020-10-21
Docker
搭建
Spark
依赖
singularities
Docker 搭建Spark 依赖sequenceiq/spark:1.6镜像
使用Docker-Hub中Spark排行最高的sequenceiq/spark:1.6.0。操作:拉取镜像:[root@localhosthome]#dockerpullsequenceiq/spark:1.6.0Tryingtopullrepositorydocker.io/sequenceiq/spark...启动...
代码星球
·
2020-10-21
Docker
搭建
Spark
依赖
sequenceiq
SparkStreaming(三)——自定义数据源
从socketTextStream说起查看socketTextStream源码defsocketTextStream(hostname:String,port:Int,storageLevel:StorageLevel=StorageLevel.MEMORY_AND_DISK_SER_2):ReceiverInputD...
代码星球
·
2020-10-20
SparkStreaming
自定义
数据源
SparkSQL(一)——概述
什么是sparksql它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口,而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点,专门用于访问结构化的数据。sql语句在底层转换成RDD,类似于hql语句在底层转换成mr程序,但是sparksql的...
代码星球
·
2020-10-20
SparkSQL
概述
SparkStreaming(二)——wordcount
需求:使用netcat工具向9999端口不断的发送数据,通过SparkStreaming读取端口数据并统计不同单词出现的次数 前期准备1)消除idea控制台过多的日志信息1.到spark/conf目录下,将log4j.properties.template文件下载到本地,重命名为log4j.propertie...
代码星球
·
2020-10-20
SparkStreaming
wordcount
SparkSQL(六)——案例实战
首先我们的数据源如下: tbDate这张表记录的是时间信息;tbStockDetail这张表记录的订单的详细信息;tbStock这张表将订单与实践和地点两个维度的信息连接在一起。数据属性如下:每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。也就是说:tbStock与tbStockD...
代码星球
·
2020-10-20
SparkSQL
案例
实战
SparkStreaming(一)——概述
SparkStreaming是什么?SparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而...
代码星球
·
2020-10-20
SparkStreaming
概述
首页
上一页
...
2
3
4
5
6
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他