#Park

开发工具之Spark程序开发详解

1、打开IDEA的官网地址,地址如下:http://www.jetbrains.com/idea/ 2、点击DOWNLOAD,按照自己的需求下载安装,我们用免费版即可。 3、双击ideaIU-15.0.2.exe安装包,点击Next。 4、选择安装路径,点击Next。5、可以选择是否创建桌...

Spark(一): 基本架构及原理

 ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于...
代码星球 代码星球·2020-04-14

CloneZilla + Parkomat 实现网络备份

前往 http://clonezilla.org/downloads.php 下载CloneZillaLive,有四个版本,我们主要使用的是稳定版(stable)。而alternative-stable,stable的区别主要是基于不同的发行版,前者基于Ubuntu,而后者基于Debian。对于UE...

Spark(十七)图计算GraphX

1.1基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面常用的应用有:在地图应用中找到最短路径、基于与他人的相似度图,推荐产品、服务、人际关系或媒体1.2...
代码星球 代码星球·2020-04-11

Spark 编程基础

1.初始化Sparkimportorg.apache.spark.{SparkContext,SparkConf}valconf=newSparkConf().setAppName("RDD1").setMaster("local")valsc=newSparkContext(conf)2.创建RDD的方法内存:Par...
代码星球 代码星球·2020-04-11

翻滚吧,Spark (错误记录)

1)本地运行报错: Exceptioninthread"main"org.apache.spark.SparkException:AmasterURLmustbesetinyourconfiguration解决方案:第一种,在代码里设置:valconf=newSparkConf().setAppName("S...
代码星球 代码星球·2020-04-11

Win7 单机Spark和PySpark安装

欢呼一下先。软件环境菜鸟的我终于把单机Spark和Pyspark安装成功了。加油加油!!!1.安装方法参考:已安装Pycharm和IntellijIDEA。win7PySpark安装:http://blog.csdn.net/a819825294/article/details/51782773win7Spark安装:...

Spark 与 MapReduce的区别

学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffleread边fetch边处理还是一次性fetch完再处理?边fetch边处理。MapReduce &nb...
代码星球 代码星球·2020-04-11

Spark MLib 基本统计汇总 2

4.假设检验基础回顾:假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。显著性检验原假设与备择假设      常把一个要检验的假设记作 H0,称为原假设(或零假设)(nullhypothesis)  &nbs...

Spark MLib 基本统计汇总 1

1. 概括统计summarystatisticsMLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。colStats返回一个 MultivariateStatisticalSummary 对象,这...

Spark MLib 数据类型

 1. MLlib ApacheSpark'sscalablemachinelearninglibrary,withAPIsinJava,ScalaandPython.2. 数据类型本地向量,标注点,本地矩阵,分布式矩阵3.本地向量LocalVector稠密向量dense&nbs...
代码星球 代码星球·2020-04-11

Spark 常用参数及调优

sparkstreaming调优的几个角度:高效地利用集群资源减少批数据的处理时间设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度内存调优SparkSQL可以通过调用 sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。...
代码星球 代码星球·2020-04-11

Spark Shell & Spark submit

Spark的shell是一个强大的交互式数据分析工具。1.搭建Spark2.两个目录下面有可执行文件:bin  包含spark-shell和spark-submitsbin 包含sbin/start-master.sh:在机器上启动一个master实例sbin/start-slaves.s...
代码星球 代码星球·2020-04-11

Spark 学习笔记1 (常见术语 )

本来没打算学Spark的,不过时机很逗。最膜拜的大神做spark分享,还是其中最好玩的notebook。这不就是另外一个HUE吗,但感觉更好玩。刚好新的Spark2.x要问世了,大神在组织战队一起迭代。就此开始跟着大神脚后跟一点点的了解,学习争取入门吧。https://github.com/endymecy/spark...

spark graphX作图计算

importorg.apache.spark.graphx.{Edge,Graph,VertexId}importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}//求共同好友objectCommendFriend{defma...
代码星球 代码星球·2020-04-08
首页上一页...1112131415...下一页尾页