51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#Park
编译CDH Spark源代码
经过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar文件,用rar打开看看hivejdbcpackage有没有包含在里面,...
代码星球
·
2020-04-08
编译
CDH
Spark
源代码
SparkSql 不支持Date Format (支持Timestamp)
最近项目中需要用到sparksql,需要查询sqlDate类型,无奈,官方现阶段1.6.0还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了。1.解析SimpleDateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");Dateb...
代码星球
·
2020-04-08
SparkSql
不支持
Date
Format
支持
Spark之Streaming
1.socket消息发送importjava.net.ServerSocketimportjava.io.PrintWriterimportscala.collection.mutable.ListBufferimportjava.util.Random/***Createdbyzzyon8/28/15.*//***模...
代码星球
·
2020-04-08
Spark
Streaming
Spark之命令
Spark之命令1.spark运行模式有4种:a.local多有用测试,b.standalone:spark集群模式,使用spark自己的调度方式。c.Yarn:对MapreduceV1升级的经典版本,支持spark。d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行...
代码星球
·
2020-04-08
Spark
命令
Spark之集群搭建
注意,这种安装方式是集群方式:然后有常用两种运行模式:standalone,onyarn 区别就是在编写standalone与onyarn的程序时的配置不一样,具体请参照spar2中的例子.提交方式:standalonespark-submit--classtestkmeans.KMeans_jiespark...
代码星球
·
2020-04-08
Spark
集群
搭建
Spark之scala
一、什么是scalascala是基于JVMde编程语言。JAVA是运行在jvm上的编程语言,java源代码通过jvm被编译成class文件,然后在os上运行class文件。scala是运行在jvm上的编程语言,scala源代码通过jvm被编译成class文件,然后在os上运行class文件。二语法:1.声明值和变量va...
代码星球
·
2020-04-08
Spark
scala
docker on spark
从docker仓库pull镜像dockerpullsequenceiq/spark:1.4.0构建docker镜像dockerbuild–rm-tsequenceiq/spark:1.4.0.-t选项是你要构建的sequenceiq/sparkimage的tag,就好比ubuntu:13.10一样–rm选项是告诉Doc...
代码星球
·
2020-04-06
docker
on
spark
Spark MLlib LDA 基于GraphX实现原理及源代码分析
LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火、最有力的模型之中的一个,它能通过多轮迭代把特征向量集合按主题分类。眼下,广泛运用在文本主题聚类中。LDA的开源实现有非常多。眼下广泛使用、可以分布式并行处理大规模语料库的有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。以下介...
代码星球
·
2020-04-06
Spark
MLlib
LDA
基于
GraphX
spark源代码action系列-foreach与foreachPartition
RDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每一个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.首先我们先看看foreach的操作:在fureach中,传入一个functio...
代码星球
·
2020-04-06
spark
源代码
action
系列
-foreach
Exactly-once Spark Streaming from Apache Kafka
这篇文章我已经看过两遍了。收获颇多,抽个时间翻译下,先贴个原文链接吧。也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/...
代码星球
·
2020-04-06
Exactly-once
Spark
Streaming
from
Apache
【大数据处理架构】1.spark streaming
1.spark是什么?>ApacheSpark是一个类似hadoop的开源高速集群运算环境 与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI,RAPI接口.而且提tools:SparkSQL forSQL处理结构化数据,&n...
代码星球
·
2020-04-06
数据处理
架构
1.spark
streaming
【大数据】Spark On Yarn
Spark在YARN中有yarn-cluster和yarn-client两种运行模式: I.Yarnclient在yarn-client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executorcontainer进行交互,并将最...
代码星球
·
2020-04-06
数据
Spark
On
Yarn
大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化
第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...
代码星球
·
2020-04-05
数据
架构
开发
挖掘
分析
Spark Streaming反压机制
反压(BackPressure)机制主要用来解决流处理系统中,处理速度比摄入速度慢的情况。是控制流处理中批次流量过载的有效手段。SparkStreaming中的反压机制是Spark1.5.0推出的新特性,可以根据处理效率动态调整摄入速率。当批处理时间(BatchProcessingTime)大于批次间隔(BatchIn...
代码星球
·
2020-04-05
Spark
Streaming
反压
机制
spark submit参数及调优
你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式: ./bin/spark-submit--class<main-class>--master<master-url>--deploy-mode<deploy-...
代码星球
·
2020-04-05
spark
submit
参数
调优
首页
上一页
...
12
13
14
15
16
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他