#spark

Spark之命令

Spark之命令1.spark运行模式有4种:a.local多有用测试,b.standalone:spark集群模式,使用spark自己的调度方式。c.Yarn:对MapreduceV1升级的经典版本,支持spark。d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行...
代码星球 ·2020-04-08

Spark之集群搭建

注意,这种安装方式是集群方式:然后有常用两种运行模式:standalone,onyarn 区别就是在编写standalone与onyarn的程序时的配置不一样,具体请参照spar2中的例子.提交方式:standalonespark-submit--classtestkmeans.KMeans_jiespark...
代码星球 ·2020-04-08

Spark之scala

一、什么是scalascala是基于JVMde编程语言。JAVA是运行在jvm上的编程语言,java源代码通过jvm被编译成class文件,然后在os上运行class文件。scala是运行在jvm上的编程语言,scala源代码通过jvm被编译成class文件,然后在os上运行class文件。二语法:1.声明值和变量va...
代码星球 ·2020-04-08

docker on spark

从docker仓库pull镜像dockerpullsequenceiq/spark:1.4.0构建docker镜像dockerbuild–rm-tsequenceiq/spark:1.4.0.-t选项是你要构建的sequenceiq/sparkimage的tag,就好比ubuntu:13.10一样–rm选项是告诉Doc...
代码星球 ·2020-04-06

Spark MLlib LDA 基于GraphX实现原理及源代码分析

LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火、最有力的模型之中的一个,它能通过多轮迭代把特征向量集合按主题分类。眼下,广泛运用在文本主题聚类中。LDA的开源实现有非常多。眼下广泛使用、可以分布式并行处理大规模语料库的有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。以下介...

spark源代码action系列-foreach与foreachPartition

RDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每一个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.首先我们先看看foreach的操作:在fureach中,传入一个functio...

Exactly-once Spark Streaming from Apache Kafka

这篇文章我已经看过两遍了。收获颇多,抽个时间翻译下,先贴个原文链接吧。也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/...

【大数据处理架构】1.spark streaming

1.spark是什么?>ApacheSpark是一个类似hadoop的开源高速集群运算环境 与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI,RAPI接口.而且提tools:SparkSQL forSQL处理结构化数据,&n...

【大数据】Spark On Yarn

Spark在YARN中有yarn-cluster和yarn-client两种运行模式: I.Yarnclient在yarn-client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executorcontainer进行交互,并将最...
代码星球 ·2020-04-06

大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...

Spark Streaming反压机制

反压(BackPressure)机制主要用来解决流处理系统中,处理速度比摄入速度慢的情况。是控制流处理中批次流量过载的有效手段。SparkStreaming中的反压机制是Spark1.5.0推出的新特性,可以根据处理效率动态调整摄入速率。当批处理时间(BatchProcessingTime)大于批次间隔(BatchIn...
代码星球 ·2020-04-05

spark submit参数及调优

你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式:  ./bin/spark-submit--class<main-class>--master<master-url>--deploy-mode<deploy-...
代码星球 ·2020-04-05

scala语法在spark withScope上的应用

withSpout在spark中是用来做DAG可视化的,它在代码里的用法如下(以map为例,spark2.0.0版本)defmap[U:ClassTag](f:T=>U):RDD[U]=withScope{valcleanF=sc.clean(f)newMapPartitionsRDD[U,T](this,(co...

Spark操作实战

1.local模式$SPARK_HOME/bin/spark-shell--masterlocalimportorg.apache.log4j.{Level,Logger}//导入javalog4j的日志相关类Logger.getLogger("org.apache.spark").setLevel(Level.WAR...
代码星球 ·2020-04-05

spark使用hadoop native库

默认情况下,hadoop官方发布的二进制包是不包含native库的,native库是用C++实现的,用于进行一些CPU密集型计算,如压缩。比如apachekylin在进行预计算时为了减少预计算的数据占用的磁盘空间,可以配置使用压缩格式。默认情况下,启动spark-shell,会有无法加载native库的警告:19/02...
代码星球 ·2020-04-05
首页上一页...1213141516下一页尾页