51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#ARK
Spark 与 MapReduce的区别
学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffleread边fetch边处理还是一次性fetch完再处理?边fetch边处理。MapReduce &nb...
代码星球
·
2020-04-11
Spark
MapReduce
区别
Spark MLib 基本统计汇总 2
4.假设检验基础回顾:假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。显著性检验原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设)(nullhypothesis) &nbs...
代码星球
·
2020-04-11
Spark
MLib
基本
统计
汇总
Spark MLib 基本统计汇总 1
1. 概括统计summarystatisticsMLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。colStats返回一个 MultivariateStatisticalSummary 对象,这...
代码星球
·
2020-04-11
Spark
MLib
基本
统计
汇总
Spark MLib 数据类型
1. MLlib ApacheSpark'sscalablemachinelearninglibrary,withAPIsinJava,ScalaandPython.2. 数据类型本地向量,标注点,本地矩阵,分布式矩阵3.本地向量LocalVector稠密向量dense&nbs...
代码星球
·
2020-04-11
Spark
MLib
数据
类型
Spark 常用参数及调优
sparkstreaming调优的几个角度:高效地利用集群资源减少批数据的处理时间设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度内存调优SparkSQL可以通过调用 sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。...
代码星球
·
2020-04-11
Spark
常用
参数
调优
Spark Shell & Spark submit
Spark的shell是一个强大的交互式数据分析工具。1.搭建Spark2.两个目录下面有可执行文件:bin 包含spark-shell和spark-submitsbin 包含sbin/start-master.sh:在机器上启动一个master实例sbin/start-slaves.s...
代码星球
·
2020-04-11
Spark
Shell
submit
Spark 学习笔记1 (常见术语 )
本来没打算学Spark的,不过时机很逗。最膜拜的大神做spark分享,还是其中最好玩的notebook。这不就是另外一个HUE吗,但感觉更好玩。刚好新的Spark2.x要问世了,大神在组织战队一起迭代。就此开始跟着大神脚后跟一点点的了解,学习争取入门吧。https://github.com/endymecy/spark...
代码星球
·
2020-04-11
Spark
学习
笔记
常见
术语
spark graphX作图计算
importorg.apache.spark.graphx.{Edge,Graph,VertexId}importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}//求共同好友objectCommendFriend{defma...
代码星球
·
2020-04-08
spark
graphX
作图
计算
编译CDH Spark源代码
经过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar文件,用rar打开看看hivejdbcpackage有没有包含在里面,...
代码星球
·
2020-04-08
编译
CDH
Spark
源代码
SparkSql 不支持Date Format (支持Timestamp)
最近项目中需要用到sparksql,需要查询sqlDate类型,无奈,官方现阶段1.6.0还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了。1.解析SimpleDateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");Dateb...
代码星球
·
2020-04-08
SparkSql
不支持
Date
Format
支持
Spark之Streaming
1.socket消息发送importjava.net.ServerSocketimportjava.io.PrintWriterimportscala.collection.mutable.ListBufferimportjava.util.Random/***Createdbyzzyon8/28/15.*//***模...
代码星球
·
2020-04-08
Spark
Streaming
Spark之命令
Spark之命令1.spark运行模式有4种:a.local多有用测试,b.standalone:spark集群模式,使用spark自己的调度方式。c.Yarn:对MapreduceV1升级的经典版本,支持spark。d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行...
代码星球
·
2020-04-08
Spark
命令
Spark之集群搭建
注意,这种安装方式是集群方式:然后有常用两种运行模式:standalone,onyarn 区别就是在编写standalone与onyarn的程序时的配置不一样,具体请参照spar2中的例子.提交方式:standalonespark-submit--classtestkmeans.KMeans_jiespark...
代码星球
·
2020-04-08
Spark
集群
搭建
Spark之scala
一、什么是scalascala是基于JVMde编程语言。JAVA是运行在jvm上的编程语言,java源代码通过jvm被编译成class文件,然后在os上运行class文件。scala是运行在jvm上的编程语言,scala源代码通过jvm被编译成class文件,然后在os上运行class文件。二语法:1.声明值和变量va...
代码星球
·
2020-04-08
Spark
scala
初建FreeMarker工程
初建FreeMarker工程 背景:听说freemarker可以用来写页面的组件,热衷于编写可重用代码的我,迫不及待地研究了freemarker,不过,在写组件之前,还是先研究一下freemarker的基本用法。摘要:本文用了3种不同的方式(main、servlet、action),将freemarker融入...
代码星球
·
2020-04-08
初建
FreeMarker
工程
首页
上一页
...
26
27
28
29
30
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他