#ARK

Spark 与 MapReduce的区别

学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffleread边fetch边处理还是一次性fetch完再处理?边fetch边处理。MapReduce &nb...
代码星球 ·2020-04-11

Spark MLib 基本统计汇总 2

4.假设检验基础回顾:假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。显著性检验原假设与备择假设      常把一个要检验的假设记作 H0,称为原假设(或零假设)(nullhypothesis)  &nbs...

Spark MLib 基本统计汇总 1

1. 概括统计summarystatisticsMLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。colStats返回一个 MultivariateStatisticalSummary 对象,这...

Spark MLib 数据类型

 1. MLlib ApacheSpark'sscalablemachinelearninglibrary,withAPIsinJava,ScalaandPython.2. 数据类型本地向量,标注点,本地矩阵,分布式矩阵3.本地向量LocalVector稠密向量dense&nbs...
代码星球 ·2020-04-11

Spark 常用参数及调优

sparkstreaming调优的几个角度:高效地利用集群资源减少批数据的处理时间设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度内存调优SparkSQL可以通过调用 sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。...
代码星球 ·2020-04-11

Spark Shell & Spark submit

Spark的shell是一个强大的交互式数据分析工具。1.搭建Spark2.两个目录下面有可执行文件:bin  包含spark-shell和spark-submitsbin 包含sbin/start-master.sh:在机器上启动一个master实例sbin/start-slaves.s...
代码星球 ·2020-04-11

Spark 学习笔记1 (常见术语 )

本来没打算学Spark的,不过时机很逗。最膜拜的大神做spark分享,还是其中最好玩的notebook。这不就是另外一个HUE吗,但感觉更好玩。刚好新的Spark2.x要问世了,大神在组织战队一起迭代。就此开始跟着大神脚后跟一点点的了解,学习争取入门吧。https://github.com/endymecy/spark...

spark graphX作图计算

importorg.apache.spark.graphx.{Edge,Graph,VertexId}importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}//求共同好友objectCommendFriend{defma...
代码星球 ·2020-04-08

编译CDH Spark源代码

  经过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar文件,用rar打开看看hivejdbcpackage有没有包含在里面,...
代码星球 ·2020-04-08

SparkSql 不支持Date Format (支持Timestamp)

最近项目中需要用到sparksql,需要查询sqlDate类型,无奈,官方现阶段1.6.0还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了。1.解析SimpleDateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");Dateb...

Spark之Streaming

1.socket消息发送importjava.net.ServerSocketimportjava.io.PrintWriterimportscala.collection.mutable.ListBufferimportjava.util.Random/***Createdbyzzyon8/28/15.*//***模...
代码星球 ·2020-04-08

Spark之命令

Spark之命令1.spark运行模式有4种:a.local多有用测试,b.standalone:spark集群模式,使用spark自己的调度方式。c.Yarn:对MapreduceV1升级的经典版本,支持spark。d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行...
代码星球 ·2020-04-08

Spark之集群搭建

注意,这种安装方式是集群方式:然后有常用两种运行模式:standalone,onyarn 区别就是在编写standalone与onyarn的程序时的配置不一样,具体请参照spar2中的例子.提交方式:standalonespark-submit--classtestkmeans.KMeans_jiespark...
代码星球 ·2020-04-08

Spark之scala

一、什么是scalascala是基于JVMde编程语言。JAVA是运行在jvm上的编程语言,java源代码通过jvm被编译成class文件,然后在os上运行class文件。scala是运行在jvm上的编程语言,scala源代码通过jvm被编译成class文件,然后在os上运行class文件。二语法:1.声明值和变量va...
代码星球 ·2020-04-08

初建FreeMarker工程

初建FreeMarker工程 背景:听说freemarker可以用来写页面的组件,热衷于编写可重用代码的我,迫不及待地研究了freemarker,不过,在写组件之前,还是先研究一下freemarker的基本用法。摘要:本文用了3种不同的方式(main、servlet、action),将freemarker融入...
代码星球 ·2020-04-08
首页上一页...2627282930...下一页尾页