Spark主题的文章列表，还有Spark的技术要点_第1页

如何查看Spark版本

1>BruceWayne..：除了@BinaryNerd如果您使用的是Spark,请使用以下命令获取Spark版本:spark-submit--version要么登录ClouderaManager并转到Hosts页面然后运行 inspecthostsincluster 2>小智..：您可...

开发笔记·2023-03-16

Spark在MaxCompute的运行方式

左侧是原生Spark的架构图，右边SparkonMaxCompute运行在阿里云自研的Cupid的平台之上，该平台可以原生支持开源社区Yarn所支持的计算框架，如Spark等。2.1打开链接下载客户端到本地http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0...

代码星球·2021-02-24

Spark in action on Kubernetes

前言在上篇文章中，向大家介绍了如何使用SparkOperator在kubernetes集群上面提交一个计算作业。今天我们会继续使用上篇文章中搭建的Playground进行调试与解析，帮助大家更深入的理解SparkOperator的工作原理。所以如果没有浏览过上篇文章的同学，可以通过传送门直达，先配置好Playgroun...

代码星球·2021-02-24

MaxCompute Spark开发指南

本文档面向需要使用MaxComputeSpark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。MaxComputeSpark是MaxCompute提供的兼容开源的Spark计算服务，它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持用户以熟悉的开发使用方式提交运行Spark作...

代码星球·2021-02-24

从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路

2019年5月14日，喜提浙江省科学技术进步一等奖的 MaxCompute 是阿里巴巴自研的EB级大数据计算平台。该平台依托阿里云飞天基础架构，是阿里巴巴在10年前做飞天系统的三大件之分布式计算部分。10年后的今天，MaxCompute已经是可以承载EB级的数据存储能力，百PB级的单日计算能力，公共...

代码星球·2021-02-23

spark 三种数据集的关系（二）

一个Dataset是一个分布式的数据集，而且它是一个新的接口，这个新的接口是在Spark1.6版本里面才被添加进来的，所以要注意DataFrame是先出来的，然后在1.6版本才出现的Dataset，提供了哪些优点呢？比如强类型，支持lambda表达式，还有还提供了sparksql执行引擎的一些优化，DataFrame里...

代码星球·2021-02-22

pandas的dataframe与spark的dataframe

...

代码星球·2021-02-22

spark 三种数据集的关系（一）

CatalystOptimizer: Dataset数据集仅可用Scala或Java。但是，我们提供了以下上下文来更好地理解Spark2.0的方向数据集是在2015年作为ApacheSpark1.6版本的一部分引入的。datasets的目标是提供一个类型安全的编程接口。这允许开发人员使用具有编译时...

代码星球·2021-02-22

spark为什么比hadoop的mr要快？

1.前言Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。但是事实上，不光Spark是内存计算，Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘。SparkSQL比Ha...

代码星球·2021-02-20

spark-聚合算子aggregatebykey

spark-聚合算子aggregatebykeyAggregatethevaluesofeachkey,usinggivencombinefunctionsandaneutral"zerovalue".Thisfunctioncanreturnadifferentresulttype,U,thanthetypeofth...

代码星球·2021-02-20

spark中reduce和reduceByKey的区别

reduce(binary_function) reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。具体过程，RDD有12345678910个元素， 1+2=3&nb...

代码星球·2021-02-18

spark中map和flatmap的区别

1.map会将每一条输入映射为一个新对象。{苹果，梨子}.map(去皮）={去皮苹果，去皮梨子}其中：“去皮”函数的类型为：A=>B2.flatMap包含两个操作：会将每一个输入对象输入映射为一个新集合，然后把这些新集合连成一个大集合。{苹果，梨子}.flatMap(切碎)={苹果碎片1，苹果碎片2，梨子碎片1，...

代码星球·2021-02-18

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

1.安装并配置zk2.安装并配置Kafka3.启动zk4.启动Kafka5.创建topic[root@mini3kafka]#bin/kafka-console-producer.sh--broker-listmini1:9092--topiccyf-test 程序代码packageorg.apache.sp...

代码星球·2021-02-17

记一次运行spark程序遇到的权限问题

设置回滚点在本地运行时正常，在集群时就报错，后来是发现ceshi这个目录其他用户没有写的权限，修改其他用户的权限就好了 hdfsdfs-chmod777/ceshi ...

代码星球·2021-02-17

spark作业

假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下功能：1、实时统计连续网购时间超过半个小时的女性网民信息。2、周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。数据：log1.txt：周六网民停留日志 LiuYan...

代码星球·2021-02-17