#sparkcore

sparkcore入门到实战之(5)sparkcore企业运用

1、RDD全称弹性分布式数据集ResilientDistributedDataset它就是一个class。abstract class RDD[T: ClassTag](    @transient private var&nbs...

sparkcore入门到实战之(4)Spark_Transformation和Action算子

​一、Transformation        1.1map        1.2filter     &n...

sparkcore入门到实战之(3)弹性式数据集RDD

 ​一、RDD简介二、创建RDD        2.1由现有集合创建        2.2引用外部存储系统中的数据集   ...

sparkcore入门到实战之(14)HBase 中加盐(Salting)之后的表如何读取

我们知道,HBase 为我们提供了hbase-mapreduce工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:ThismodulecontainsimplementationsofInputFormat,O...

sparkcore入门到实战之(13)在Spark上通过BulkLoad快速将海量数据导入到Hbase

本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用BulkLoadAPI。  使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中,...

sparkcore入门到实战之(12)Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下:JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下:v...