51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#spark
Spark之命令
Spark之命令1.spark运行模式有4种:a.local多有用测试,b.standalone:spark集群模式,使用spark自己的调度方式。c.Yarn:对MapreduceV1升级的经典版本,支持spark。d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行...
代码星球
·
2020-04-08
Spark
命令
Spark之集群搭建
注意,这种安装方式是集群方式:然后有常用两种运行模式:standalone,onyarn 区别就是在编写standalone与onyarn的程序时的配置不一样,具体请参照spar2中的例子.提交方式:standalonespark-submit--classtestkmeans.KMeans_jiespark...
代码星球
·
2020-04-08
Spark
集群
搭建
Spark之scala
一、什么是scalascala是基于JVMde编程语言。JAVA是运行在jvm上的编程语言,java源代码通过jvm被编译成class文件,然后在os上运行class文件。scala是运行在jvm上的编程语言,scala源代码通过jvm被编译成class文件,然后在os上运行class文件。二语法:1.声明值和变量va...
代码星球
·
2020-04-08
Spark
scala
docker on spark
从docker仓库pull镜像dockerpullsequenceiq/spark:1.4.0构建docker镜像dockerbuild–rm-tsequenceiq/spark:1.4.0.-t选项是你要构建的sequenceiq/sparkimage的tag,就好比ubuntu:13.10一样–rm选项是告诉Doc...
代码星球
·
2020-04-06
docker
on
spark
Spark MLlib LDA 基于GraphX实现原理及源代码分析
LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火、最有力的模型之中的一个,它能通过多轮迭代把特征向量集合按主题分类。眼下,广泛运用在文本主题聚类中。LDA的开源实现有非常多。眼下广泛使用、可以分布式并行处理大规模语料库的有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。以下介...
代码星球
·
2020-04-06
Spark
MLlib
LDA
基于
GraphX
spark源代码action系列-foreach与foreachPartition
RDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每一个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.首先我们先看看foreach的操作:在fureach中,传入一个functio...
代码星球
·
2020-04-06
spark
源代码
action
系列
-foreach
Exactly-once Spark Streaming from Apache Kafka
这篇文章我已经看过两遍了。收获颇多,抽个时间翻译下,先贴个原文链接吧。也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/...
代码星球
·
2020-04-06
Exactly-once
Spark
Streaming
from
Apache
【大数据处理架构】1.spark streaming
1.spark是什么?>ApacheSpark是一个类似hadoop的开源高速集群运算环境 与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI,RAPI接口.而且提tools:SparkSQL forSQL处理结构化数据,&n...
代码星球
·
2020-04-06
数据处理
架构
1.spark
streaming
【大数据】Spark On Yarn
Spark在YARN中有yarn-cluster和yarn-client两种运行模式: I.Yarnclient在yarn-client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executorcontainer进行交互,并将最...
代码星球
·
2020-04-06
数据
Spark
On
Yarn
大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化
第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...
代码星球
·
2020-04-05
数据
架构
开发
挖掘
分析
Spark Streaming反压机制
反压(BackPressure)机制主要用来解决流处理系统中,处理速度比摄入速度慢的情况。是控制流处理中批次流量过载的有效手段。SparkStreaming中的反压机制是Spark1.5.0推出的新特性,可以根据处理效率动态调整摄入速率。当批处理时间(BatchProcessingTime)大于批次间隔(BatchIn...
代码星球
·
2020-04-05
Spark
Streaming
反压
机制
spark submit参数及调优
你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式: ./bin/spark-submit--class<main-class>--master<master-url>--deploy-mode<deploy-...
代码星球
·
2020-04-05
spark
submit
参数
调优
scala语法在spark withScope上的应用
withSpout在spark中是用来做DAG可视化的,它在代码里的用法如下(以map为例,spark2.0.0版本)defmap[U:ClassTag](f:T=>U):RDD[U]=withScope{valcleanF=sc.clean(f)newMapPartitionsRDD[U,T](this,(co...
代码星球
·
2020-04-05
scala
语法
spark
withScope
应用
Spark操作实战
1.local模式$SPARK_HOME/bin/spark-shell--masterlocalimportorg.apache.log4j.{Level,Logger}//导入javalog4j的日志相关类Logger.getLogger("org.apache.spark").setLevel(Level.WAR...
代码星球
·
2020-04-05
Spark
操作
实战
spark使用hadoop native库
默认情况下,hadoop官方发布的二进制包是不包含native库的,native库是用C++实现的,用于进行一些CPU密集型计算,如压缩。比如apachekylin在进行预计算时为了减少预计算的数据占用的磁盘空间,可以配置使用压缩格式。默认情况下,启动spark-shell,会有无法加载native库的警告:19/02...
代码星球
·
2020-04-05
spark
使用
hadoop
native
首页
上一页
...
12
13
14
15
16
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他