spark主题的文章列表，还有spark的技术要点_第14页

Spark之命令

Spark之命令1.spark运行模式有4种：a.local多有用测试,b.standalone：spark集群模式，使用spark自己的调度方式。c.Yarn:对MapreduceV1升级的经典版本，支持spark。d.Mesos:类似Yarn的资源调度框架，提供了有效的、跨分布式应用或框架的资源隔离和共享，可以运行...

代码星球 ·2020-04-08

Spark之集群搭建

注意,这种安装方式是集群方式:然后有常用两种运行模式:standalone,onyarn 区别就是在编写standalone与onyarn的程序时的配置不一样,具体请参照spar2中的例子.提交方式:standalonespark-submit--classtestkmeans.KMeans_jiespark...

代码星球 ·2020-04-08

Spark之scala

一、什么是scalascala是基于JVMde编程语言。JAVA是运行在jvm上的编程语言，java源代码通过jvm被编译成class文件，然后在os上运行class文件。scala是运行在jvm上的编程语言，scala源代码通过jvm被编译成class文件，然后在os上运行class文件。二语法：1.声明值和变量va...

代码星球 ·2020-04-08

docker on spark

从docker仓库pull镜像dockerpullsequenceiq/spark:1.4.0构建docker镜像dockerbuild–rm-tsequenceiq/spark:1.4.0.-t选项是你要构建的sequenceiq/sparkimage的tag，就好比ubuntu:13.10一样–rm选项是告诉Doc...

代码星球 ·2020-04-06

Spark MLlib LDA 基于GraphX实现原理及源代码分析

LDA（隐含狄利克雷分布）是一个主题聚类模型，是当前主题聚类领域最火、最有力的模型之中的一个，它能通过多轮迭代把特征向量集合按主题分类。眼下，广泛运用在文本主题聚类中。LDA的开源实现有非常多。眼下广泛使用、可以分布式并行处理大规模语料库的有微软的LightLDA，谷歌plda、plda+，sparkLDA等等。以下介...

代码星球 ·2020-04-06

spark源代码action系列-foreach与foreachPartition

RDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每一个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.首先我们先看看foreach的操作:在fureach中,传入一个functio...

代码星球 ·2020-04-06

Exactly-once Spark Streaming from Apache Kafka

这篇文章我已经看过两遍了。收获颇多，抽个时间翻译下，先贴个原文链接吧。也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/...

代码星球 ·2020-04-06

【大数据处理架构】1.spark streaming

1.spark是什么？>ApacheSpark是一个类似hadoop的开源高速集群运算环境与后者不同的是，spark更快（官方的说法是快近100倍）。提供高层JAVA,Scala,PythonI,RAPI接口.而且提tools：SparkSQL forSQL处理结构化数据,&n...

代码星球 ·2020-04-06

【大数据】Spark On Yarn

Spark在YARN中有yarn-cluster和yarn-client两种运行模式: I.Yarnclient在yarn-client模式下，Driver运行在Client上，通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executorcontainer进行交互，并将最...

代码星球 ·2020-04-06

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...

代码星球 ·2020-04-05

Spark Streaming反压机制

反压(BackPressure)机制主要用来解决流处理系统中，处理速度比摄入速度慢的情况。是控制流处理中批次流量过载的有效手段。SparkStreaming中的反压机制是Spark1.5.0推出的新特性，可以根据处理效率动态调整摄入速率。当批处理时间(BatchProcessingTime)大于批次间隔(BatchIn...

代码星球 ·2020-04-05

spark submit参数及调优

你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式: ./bin/spark-submit--class<main-class>--master<master-url>--deploy-mode<deploy-...

代码星球 ·2020-04-05

scala语法在spark withScope上的应用

withSpout在spark中是用来做DAG可视化的，它在代码里的用法如下（以map为例，spark2.0.0版本）defmap[U:ClassTag](f:T=>U):RDD[U]=withScope{valcleanF=sc.clean(f)newMapPartitionsRDD[U,T](this,(co...

代码星球 ·2020-04-05

Spark操作实战

1.local模式$SPARK_HOME/bin/spark-shell--masterlocalimportorg.apache.log4j.{Level,Logger}//导入javalog4j的日志相关类Logger.getLogger("org.apache.spark").setLevel(Level.WAR...

代码星球 ·2020-04-05

spark使用hadoop native库

默认情况下，hadoop官方发布的二进制包是不包含native库的，native库是用C++实现的，用于进行一些CPU密集型计算，如压缩。比如apachekylin在进行预计算时为了减少预计算的数据占用的磁盘空间，可以配置使用压缩格式。默认情况下，启动spark-shell,会有无法加载native库的警告：19/02...

代码星球 ·2020-04-05

Spark之命令

Spark之集群搭建

Spark之scala

docker on spark

Spark MLlib LDA 基于GraphX实现原理及源代码分析

spark源代码action系列-foreach与foreachPartition

Exactly-once Spark Streaming from Apache Kafka

【大数据处理架构】1.spark streaming

【大数据】Spark On Yarn

大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

Spark Streaming反压机制

spark submit参数及调优

scala语法在spark withScope上的应用

Spark操作实战

spark使用hadoop native库

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化