RDD主题的文章列表，还有RDD的技术要点_第1页

ORA-53211: unable to read invalid ORDDicom object

文档解释ORA-53211:unabletoreadinvalidORDDicomobjectCause:ThevalueofthesourceattributeortheextensionattributeoftheORDDicomobjectwasnull.Action:SeetheOracleMultimedia...

IT技术学习 ·2023-07-28

ORA-53230: unable to write to an invalid destination ORDDicom object

文档解释ORA-53230:unabletowritetoaninvaliddestinationORDDicomobjectCause:ThevalueofthesourceattributeortheextensionattributeofthedestinationORDDicomobjectwasnull.Ac...

IT技术学习 ·2023-07-11

ORA-53216: cannot export the ORDDataSource object with an external source

文档解释ORA-53216:cannotexporttheORDDataSourceobjectwithanexternalsourceCause:ThesourceoftheORDDataSourceobjectwasnotlocal.Action:Importthedatabeforecallingtheexpor...

IT技术学习 ·2023-07-08

ORA-53231: unable to write to a nonlocal destination ORDDicom object

文档解释ORA-53231:unabletowritetoanonlocaldestinationORDDicomobjectCause:ThesourceattributeofthedestinationORDDicomobjectwasnotlocal.Action:SeetheOracleMultimediado...

IT技术学习 ·2023-07-08

大数据学习——sparkRDD

https://www.cnblogs.com/qingyunzong/p/8899715.html练习1：map、filter//通过并行化生成rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))//对rdd1里的每一个元素乘2然后排序valrdd2=rdd1.m...

代码星球 ·2021-02-17

python读取剪贴板报错 pywintypes.error: (1418, 'GetClipboardData', 'xcfxdfxb3xccxc3xbbxd3xd0xb4xf2xbfxaaxb5x

在封装读取剪贴板的时候，执行测试代码时遇到个错误：pywintypes.error:(1418,'GetClipboardData','xcfxdfxb3xccxc3xbbxd3xd0xb4xf2xbfxaaxb5x 代码：#encoding=utf-8importwin32clipboardaswimpor...

代码星球 ·2021-02-13

Spark-RDD算子

一、Spark-RDD算子简介RDD(ResilientDistributedDataSet)是分布式数据集。RDD是Spark最基本的数据的抽象。scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。RDD特点：具有数据流模型的特点自动容错位置感知调度可伸缩性RDD允许用户在执行多个查询时...

代码星球 ·2020-12-18

RDD的概念与创建

1、RDD是整个Spark的计算基石。是分布式数据的抽象，为用户屏蔽了底层复杂的计算和映射环境 RDD是不可变的，如果需要在一个RDD上进行转换操作，则会生成一个新的RDD RDD是分区的，RDD里面的具体数据是分布在多台机器上的Executor里面的。堆内内存和...

代码星球 ·2020-11-27

RDD(十)——案例实操

需求：数据结构：时间戳，省份，城市，用户，广告，中间字段使用空格分割。样本如下：151660914386767641615166091438699475181516609143869178712 思路分析如下：第一步：过滤无关的数据字段，只留下省份，广告第二步：省份与广告可以组成一个key，val...

代码星球 ·2020-10-20

JdbcRDD连接MySQL

（1）添加依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><versio...

代码星球 ·2020-10-20

RDD(九)——序列化问题

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要考虑的主要问题是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。传递一个方法importorg.apache.spark.rdd.RDDclassSearc...

代码星球 ·2020-10-20

RDD(五)——action

reduce(func)通过func函数聚集RDD中的所有元素并得到最终的结果，先聚合分区内数据，再聚合分区间数据。Func函数决定了聚合的方式。defmain(args:Array[String]):Unit={valsc:SparkContext=newSparkContext(newSparkConf().set...

代码星球 ·2020-10-20

RDD(六)——分区器

RDD的分区器Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。注意：(1)只有Key-Value类型的RDD才有分区器的，非Key-Va...

代码星球 ·2020-10-20

RDD(二)——创建

RDD的创建1）从内存中创建从集合中创建RDD，Spark主要提供了两种函数：parallelize和makeRDDvalraw:RDD[Int]=sc.parallelize(1to16)valraw:RDD[Int]=sc.makeRDD(1to16) 2）从外部文件中创建valline:RDD[Stri...

代码星球 ·2020-10-20

RDD(四)——transformation_key_value类型

这里所有算子均只适用于pairRDD。pairRDD的数据类型是（k，v）形式的键值对； PartitionBy(Partitioner)对pairRDD进行分区操作，如果原有的partioner和现有的partioer是一致的话就不进行分区，否则会生成ShuffleRDD，即会产生shuffle...

代码星球 ·2020-10-20