#spark

hadoop spark介绍

Hadoop和Spark是两个开源的大数据处理框架。Hadoop是一个分布式存储和处理大规模数据的框架,而Spark是一个快速的、通用的数据处理引擎,可以在Hadoop上运行。它们都能够处理大规模的数据,但是Hadoop更适合处理批处理数据,而Spark则更适合处理流数据和交互式查询。Hadoop和Spark都是用Ja...
开发笔记 ·2024-08-31

如何查看Spark版本

1>BruceWayne..:除了@BinaryNerd如果您使用的是Spark,请使用以下命令获取Spark版本:spark-submit--version要么登录ClouderaManager并转到Hosts页面然后运行 inspecthostsincluster 2>小智..:您可...
开发笔记 ·2023-03-16

Spark在MaxCompute的运行方式

左侧是原生Spark的架构图,右边SparkonMaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。2.1打开链接下载客户端到本地http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0...

Spark in action on Kubernetes

前言在上篇文章中,向大家介绍了如何使用SparkOperator在kubernetes集群上面提交一个计算作业。今天我们会继续使用上篇文章中搭建的Playground进行调试与解析,帮助大家更深入的理解SparkOperator的工作原理。所以如果没有浏览过上篇文章的同学,可以通过传送门直达,先配置好Playgroun...

MaxCompute Spark开发指南

本文档面向需要使用MaxComputeSpark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。MaxComputeSpark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作...
代码星球 ·2021-02-24

从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路

2019年5月14日,喜提浙江省科学技术进步一等奖的 MaxCompute 是阿里巴巴自研的EB级大数据计算平台。该平台依托阿里云飞天基础架构,是阿里巴巴在10年前做飞天系统的三大件之分布式计算部分。10年后的今天,MaxCompute已经是可以承载EB级的数据存储能力,百PB级的单日计算能力,公共...

spark 三种数据集的关系(二)

一个Dataset是一个分布式的数据集,而且它是一个新的接口,这个新的接口是在Spark1.6版本里面才被添加进来的,所以要注意DataFrame是先出来的,然后在1.6版本才出现的Dataset,提供了哪些优点呢?比如强类型,支持lambda表达式,还有还提供了sparksql执行引擎的一些优化,DataFrame里...
代码星球 ·2021-02-22

spark 三种数据集的关系(一)

 CatalystOptimizer: Dataset数据集仅可用Scala或Java。但是,我们提供了以下上下文来更好地理解Spark2.0的方向数据集是在2015年作为ApacheSpark1.6版本的一部分引入的。datasets的目标是提供一个类型安全的编程接口。这允许开发人员使用具有编译时...
代码星球 ·2021-02-22

spark为什么比hadoop的mr要快?

1.前言Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。但是事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。SparkSQL比Ha...

spark-聚合算子aggregatebykey

spark-聚合算子aggregatebykeyAggregatethevaluesofeachkey,usinggivencombinefunctionsandaneutral"zerovalue".Thisfunctioncanreturnadifferentresulttype,U,thanthetypeofth...

spark中reduce和reduceByKey的区别

reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。具体过程,RDD有12345678910个元素, 1+2=3&nb...

spark中map和flatmap的区别

1.map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮)={去皮苹果,去皮梨子}其中:“去皮”函数的类型为:A=>B2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。{苹果,梨子}.flatMap(切碎)={苹果碎片1,苹果碎片2,梨子碎片1,...
代码星球 ·2021-02-18

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

1.安装并配置zk2.安装并配置Kafka3.启动zk4.启动Kafka5.创建topic[root@mini3kafka]#bin/kafka-console-producer.sh--broker-listmini1:9092--topiccyf-test 程序代码packageorg.apache.sp...

记一次运行spark程序遇到的权限问题

   设置回滚点在本地运行时正常,在集群时就报错,后来是发现ceshi这个目录其他用户没有写的权限,修改其他用户的权限就好了 hdfsdfs-chmod777/ceshi ...
首页上一页12345...下一页尾页