51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#Spark
hadoop spark介绍
Hadoop和Spark是两个开源的大数据处理框架。Hadoop是一个分布式存储和处理大规模数据的框架,而Spark是一个快速的、通用的数据处理引擎,可以在Hadoop上运行。它们都能够处理大规模的数据,但是Hadoop更适合处理批处理数据,而Spark则更适合处理流数据和交互式查询。Hadoop和Spark都是用Ja...
开发笔记
·
2024-08-31
hadoop
spark
介绍
如何查看Spark版本
1>BruceWayne..:除了@BinaryNerd如果您使用的是Spark,请使用以下命令获取Spark版本:spark-submit--version要么登录ClouderaManager并转到Hosts页面然后运行 inspecthostsincluster 2>小智..:您可...
开发笔记
·
2023-03-16
如何
查看
Spark
版本
Spark在MaxCompute的运行方式
左侧是原生Spark的架构图,右边SparkonMaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。2.1打开链接下载客户端到本地http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0...
代码星球
·
2021-02-24
Spark
MaxCompute
运行
方式
Spark in action on Kubernetes
前言在上篇文章中,向大家介绍了如何使用SparkOperator在kubernetes集群上面提交一个计算作业。今天我们会继续使用上篇文章中搭建的Playground进行调试与解析,帮助大家更深入的理解SparkOperator的工作原理。所以如果没有浏览过上篇文章的同学,可以通过传送门直达,先配置好Playgroun...
代码星球
·
2021-02-24
Spark
in
action
on
Kubernetes
MaxCompute Spark开发指南
本文档面向需要使用MaxComputeSpark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。MaxComputeSpark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作...
代码星球
·
2021-02-24
MaxCompute
Spark
开发指南
从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路
2019年5月14日,喜提浙江省科学技术进步一等奖的 MaxCompute 是阿里巴巴自研的EB级大数据计算平台。该平台依托阿里云飞天基础架构,是阿里巴巴在10年前做飞天系统的三大件之分布式计算部分。10年后的今天,MaxCompute已经是可以承载EB级的数据存储能力,百PB级的单日计算能力,公共...
代码星球
·
2021-02-23
Spark
Kubernetes
MaxCompute
原生
开源
spark 三种数据集的关系(二)
一个Dataset是一个分布式的数据集,而且它是一个新的接口,这个新的接口是在Spark1.6版本里面才被添加进来的,所以要注意DataFrame是先出来的,然后在1.6版本才出现的Dataset,提供了哪些优点呢?比如强类型,支持lambda表达式,还有还提供了sparksql执行引擎的一些优化,DataFrame里...
代码星球
·
2021-02-22
spark
三种
数据
关系
pandas的dataframe与spark的dataframe
...
代码星球
·
2021-02-22
dataframe
pandas
spark
spark 三种数据集的关系(一)
CatalystOptimizer: Dataset数据集仅可用Scala或Java。但是,我们提供了以下上下文来更好地理解Spark2.0的方向数据集是在2015年作为ApacheSpark1.6版本的一部分引入的。datasets的目标是提供一个类型安全的编程接口。这允许开发人员使用具有编译时...
代码星球
·
2021-02-22
spark
三种
数据
关系
spark为什么比hadoop的mr要快?
1.前言Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。但是事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。SparkSQL比Ha...
代码星球
·
2021-02-20
spark
为什么
hadoop
mr
要快
spark-聚合算子aggregatebykey
spark-聚合算子aggregatebykeyAggregatethevaluesofeachkey,usinggivencombinefunctionsandaneutral"zerovalue".Thisfunctioncanreturnadifferentresulttype,U,thanthetypeofth...
代码星球
·
2021-02-20
spark-
聚合
算子
aggregatebykey
spark中reduce和reduceByKey的区别
reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。具体过程,RDD有12345678910个元素, 1+2=3&nb...
代码星球
·
2021-02-18
spark
reduce
reduceByKey
区别
spark中map和flatmap的区别
1.map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮)={去皮苹果,去皮梨子}其中:“去皮”函数的类型为:A=>B2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。{苹果,梨子}.flatMap(切碎)={苹果碎片1,苹果碎片2,梨子碎片1,...
代码星球
·
2021-02-18
spark
map
flatmap
区别
大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计
1.安装并配置zk2.安装并配置Kafka3.启动zk4.启动Kafka5.创建topic[root@mini3kafka]#bin/kafka-console-producer.sh--broker-listmini1:9092--topiccyf-test 程序代码packageorg.apache.sp...
代码星球
·
2021-02-17
数据
学习
SparkStreaming
整合
Kafka
记一次运行spark程序遇到的权限问题
设置回滚点在本地运行时正常,在集群时就报错,后来是发现ceshi这个目录其他用户没有写的权限,修改其他用户的权限就好了 hdfsdfs-chmod777/ceshi ...
代码星球
·
2021-02-17
一次
运行
spark
程序
遇到
首页
上一页
1
2
3
4
5
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他