#Park

编译CDH Spark源代码

  经过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar文件,用rar打开看看hivejdbcpackage有没有包含在里面,...
代码星球 代码星球·2020-04-08

SparkSql 不支持Date Format (支持Timestamp)

最近项目中需要用到sparksql,需要查询sqlDate类型,无奈,官方现阶段1.6.0还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了。1.解析SimpleDateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");Dateb...

Spark之Streaming

1.socket消息发送importjava.net.ServerSocketimportjava.io.PrintWriterimportscala.collection.mutable.ListBufferimportjava.util.Random/***Createdbyzzyon8/28/15.*//***模...
代码星球 代码星球·2020-04-08

Spark之命令

Spark之命令1.spark运行模式有4种:a.local多有用测试,b.standalone:spark集群模式,使用spark自己的调度方式。c.Yarn:对MapreduceV1升级的经典版本,支持spark。d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行...
代码星球 代码星球·2020-04-08

Spark之集群搭建

注意,这种安装方式是集群方式:然后有常用两种运行模式:standalone,onyarn 区别就是在编写standalone与onyarn的程序时的配置不一样,具体请参照spar2中的例子.提交方式:standalonespark-submit--classtestkmeans.KMeans_jiespark...
代码星球 代码星球·2020-04-08

Spark之scala

一、什么是scalascala是基于JVMde编程语言。JAVA是运行在jvm上的编程语言,java源代码通过jvm被编译成class文件,然后在os上运行class文件。scala是运行在jvm上的编程语言,scala源代码通过jvm被编译成class文件,然后在os上运行class文件。二语法:1.声明值和变量va...
代码星球 代码星球·2020-04-08

docker on spark

从docker仓库pull镜像dockerpullsequenceiq/spark:1.4.0构建docker镜像dockerbuild–rm-tsequenceiq/spark:1.4.0.-t选项是你要构建的sequenceiq/sparkimage的tag,就好比ubuntu:13.10一样–rm选项是告诉Doc...
代码星球 代码星球·2020-04-06

Spark MLlib LDA 基于GraphX实现原理及源代码分析

LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火、最有力的模型之中的一个,它能通过多轮迭代把特征向量集合按主题分类。眼下,广泛运用在文本主题聚类中。LDA的开源实现有非常多。眼下广泛使用、可以分布式并行处理大规模语料库的有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。以下介...

spark源代码action系列-foreach与foreachPartition

RDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每一个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.首先我们先看看foreach的操作:在fureach中,传入一个functio...

Exactly-once Spark Streaming from Apache Kafka

这篇文章我已经看过两遍了。收获颇多,抽个时间翻译下,先贴个原文链接吧。也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/...

【大数据处理架构】1.spark streaming

1.spark是什么?>ApacheSpark是一个类似hadoop的开源高速集群运算环境 与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI,RAPI接口.而且提tools:SparkSQL forSQL处理结构化数据,&n...

【大数据】Spark On Yarn

Spark在YARN中有yarn-cluster和yarn-client两种运行模式: I.Yarnclient在yarn-client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executorcontainer进行交互,并将最...
代码星球 代码星球·2020-04-06

大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...

Spark Streaming反压机制

反压(BackPressure)机制主要用来解决流处理系统中,处理速度比摄入速度慢的情况。是控制流处理中批次流量过载的有效手段。SparkStreaming中的反压机制是Spark1.5.0推出的新特性,可以根据处理效率动态调整摄入速率。当批处理时间(BatchProcessingTime)大于批次间隔(BatchIn...

spark submit参数及调优

你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式:  ./bin/spark-submit--class<main-class>--master<master-url>--deploy-mode<deploy-...
代码星球 代码星球·2020-04-05
首页上一页...1213141516下一页尾页