Spark主题的文章列表，还有Spark的技术要点_第9页

sparkcore入门到实战之（12）Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下：v...

代码星球 ·2020-09-05

10 使用 OpenCV、Kafka 和 Spark 技术进行视频流分析

问题引起基于分布式计算框架Spark的室内防盗预警系统首先用摄像头录一段视频，存在电脑里，下载一个ffmpeg的软件对视频进行处理，处理成一张张图片，然后通过hadoop里边的一个文件系统叫做hdfs进行储存，之后进行分析。用spark将hdfs中存储的图片进行读取，调用opencv的人形识别算法将图片中有...

代码星球 ·2020-08-30

Run Test Case on Spark

今天有哥们问到怎样对Spark进行单元測试。如今将Sbt的測试方法写出来，例如以下：对Spark的testcase进行測试的时候能够用sbt的test命令： sbt/sbttest sbt/sbt"test-only*DriverSuite*" 以下举个样例：这个TestCase是位于$SPARK_...

代码星球 ·2020-08-29

Alluxio增强Spark和MapReduce存储能力

Alluxio的前身为Tachyon。Alluxio是一个基于内存的分布式文件系统；Alluxio以内存为中心设计，他处在诸如AmazonS3、ApacheHDFS或OpenStackSwift存储系统和计算框架应用ApacheSpark或HadoopMapReduce中间，它是架构在底层分布式文件系统和上层分布式计算...

代码星球 ·2020-08-26

Machine Learning With Spark学习笔记（提取10万电影数据特征）

注：原文中的代码是在spark-shell中编写运行的，本人的是在eclipse中编写运行，所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中。然后输出第一条数据看看效果。代码例如以下：valsc=newSparkContext("local","ExtractFeat...

代码星球 ·2020-08-21

spark 参数调优

调整partition数量，每次reduece和distict的时候都应该调整，数量太大和太小都不好，通常来讲保证一个partition的大小在1～2G左右为宜调整excutors调整core调整内存使用cache（但是在内存不够的情况下，最好不要用，可能会频繁GC）尽量减少shuffle运算尽量减少网络传输少量数据可...

代码星球 ·2020-08-09

spark 写hbase

部分情况下：saveAsNewAPIHadoopDataset不能用大坑，org.apache.hadoop.mapred和org.apache.hadoop.mapreduce两个包的混乱　　packagecom.xiaomi.mishell.statusbarimportorg.apache.hadoo...

代码星球 ·2020-08-09

spark 机器学习

两种机器学习库ml与mlib mllib containsoldRDD-basedAPIml containsnewAPIbuildaround Dataset andMLPipelines 分类回归逻辑回归二分类和多分类不支持回归决策树二分类和多...

代码星球 ·2020-08-09

spark HelloWorld程序（scala版）

使用本地模式，不需要安装spark，引入相关JAR包即可：<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>...

代码星球 ·2020-08-09

【Spark】部署流程的深度了解

文章目录Spark核心组件DriverExecutorSpark通用运行流程图Standalone模式运行机制Client模式流程图Cluster模式流程图On-Yarn模式运行机制Client模式流程图Cluster模式流程图源码解读（多图版）SparkOn-YarnCluster模式示例1.SparkSubmit2...

代码星球 ·2020-08-09

【Spark】SparkStreaming的容错机制

文章目录检查点机制驱动器程序容错工作节点容错接收器容错处理保证检查点机制Metadatacheckpointing——将定义流计算的信息存入容错的系统如HDFS。Datacheckpointing——将产生的RDDs存入可靠的存储空间。代码实现如下图valsparkContext=newSparkContext(new...

代码星球 ·2020-08-09

【Spark】SparkStreaming和Kafka的整合

文章目录Streaming和Kafka整合概述使用0.8版本下ReceiverDStream接收数据进行消费步骤一、启动Kafka集群二、创建maven工程，导入jar包三、创建一个kafka的topic四、启动kafka的Producer五、开发代码使用0.8版本下DirectDStream接收数据进行消费开发代码使...

代码星球 ·2020-08-09

【Spark】SparkStreaming与flume进行整合

文章目录注意事项SparkStreaming从flume中poll数据步骤一、开发flume配置文件二、启动flume三、开发sparkStreaming代码1.创建maven工程，导入jar包2.开发代码四、向监控目录中导入文本文件flume将数据push给SparkStreaming步骤一、开发flume配置文件二...

代码星球 ·2020-08-09

【Spark】SparkStreaming从不同基本数据源读取数据

文章目录基本数据源文件数据源注意事项步骤一、创建maven工程并导包二、在HDFS创建目录，并上传要做测试的数据三、开发SparkStreaming代码四、运行代码后，往HDFS文件夹上传文件五、控制台输出结果自定义数据源步骤一、使用nc工具给指定端口发送数据二、开发代码RDD队列步骤一、开发代码文件数据源注意事项1....

代码星球 ·2020-08-09

【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数

文章目录步骤一、创建maven工程并导入jar包二、安装并启动生产者三、开发SparkStreaming代码四、查看结果一、创建maven工程并导入jar包<properties><scala.version>2.11.8</scala.version><spark.versi...

代码星球 ·2020-08-09