sparkcore主题的文章列表，还有sparkcore的技术要点_第1页

sparkcore入门到实战之（5）sparkcore企业运用

1、RDD全称弹性分布式数据集ResilientDistributedDataset它就是一个class。abstract class RDD[T: ClassTag]( @transient private var&nbs...

代码星球 ·2020-09-19

sparkcore入门到实战之（4）Spark_Transformation和Action算子

一、Transformation 1.1map 1.2filter &n...

代码星球 ·2020-09-05

sparkcore入门到实战之（3）弹性式数据集RDD

一、RDD简介二、创建RDD 2.1由现有集合创建 2.2引用外部存储系统中的数据集 ...

代码星球 ·2020-09-05

sparkcore入门到实战之（14）HBase 中加盐（Salting）之后的表如何读取

我们知道，HBase 为我们提供了hbase-mapreduce工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下：ThismodulecontainsimplementationsofInputFormat,O...

代码星球 ·2020-09-05

sparkcore入门到实战之（13）在Spark上通过BulkLoad快速将海量数据导入到Hbase

本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用BulkLoadAPI。使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中，...

代码星球 ·2020-09-05

sparkcore入门到实战之（12）Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下：v...

代码星球 ·2020-09-05