51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#ARK
【Spark】DataFrame关于数据常用操作
文章目录DSL语法概述实例操作SQL语法概述实例操作概述1.查看全表数据——DataFrame.show2.查看部分字段数据(有4种方法) (1)DataFrame.select("字段名称").show (2)DataFrame.select($"字段名称").show(推荐) (3)DataFrame.select...
代码星球
·
2020-08-09
Spark
DataFrame
关于
数据
常用
【Spark】通过创建DataFrame读取不同类型文件内容
文章目录读取文本文件第一种方法:通过RDD配合caseclass转换DataFrame步骤一、创建测试所需的文本文件二、在spark-shell中执行以下操作第二种方法:通过sparkSession构建DataFrame读取json文件读取parquet列式存储文件第一种方法:通过RDD配合caseclass转换Dat...
代码星球
·
2020-08-09
Spark
通过
创建
DataFrame
读取
【Spark】Spark任务调度相关知识
文章目录准备知识DAG概述shuffle概述SortShuffleManager普通机制bypass机制Spark任务调度流程要弄清楚Spark的任务调度流程,就必须要清楚RDD、Lineage、DAG和shuffle的相关知识,关于RDD和Lineage,我的这两天文章已经有过相关介绍,感兴趣可以去看一看【Spark...
代码星球
·
2020-08-09
Spark
任务
调度
相关
知识
【Spark】RDD的依赖关系和缓存相关知识点
文章目录RDD的依赖关系宽依赖窄依赖血统RDD缓存概述缓存方式RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrowdependency)和宽依赖(widedependency)。宽依赖宽依赖指的是子RDD中的数据来源于父RDD中的多个分区,其实就是产生了shuffle窄依赖窄依赖指的是子RDD中的数据...
代码星球
·
2020-08-09
Spark
RDD
依赖
关系
缓存
【Spark】如何用Spark查询IP地址?
文章目录需求思路ip地址转换为Long类型的两种方法ip地址转换数字地址的原理第一种方法第二种方法步骤一、在mysql创建数据库表二、开发代码日常生活中,当我们打开地图时,会通过地图道路颜色获取当前交通情况,也可以通过地图上经常网购的IP地址热力图得出哪些地区网购观念更发达,还有当前疫情的情况,各个地区疫情的热力图可以...
代码星球
·
2020-08-09
Spark
何用
查询
IP
地址
【Spark】通过Spark实现点击流日志分析
文章目录数据大致内容及格式统计PV(PageViews)统计UV(UniqueVisitor)求取TopN194.237.142.21--[18/Sep/2013:06:49:18+0000]"GET/wp-content/uploads/2013/07/rstudio-git3.pngHTTP/1.1"3040"-"...
代码星球
·
2020-08-09
Spark
通过
实现
点击
日志
Spark离线日志分析,连接Spark出现报错
首先,我的代码是这样的importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectPvCount{defmain(args:Array[String]):Unit={//获取SparkConfvalsparkCon...
代码星球
·
2020-08-09
Spark
离线
日志
分析
连接
【Scala】利用akka实现Spark启动通信
文章目录思路分析步骤一、创建maven工程,导包二、master进程代码开发三、worker进程代码开发1.首先启动master,然后依次启动worker2.启动worker时,向master发送注册信息(使用caseclass封装注册信息——workerID,memory,cores)3.接收注册信息,保存注册的wo...
代码星球
·
2020-08-09
Scala
利用
akka
实现
Spark
【Spark】快来学习RDD的创建以及操作方式吧!
目录RDD的创建三种方式从一个集合中创建从文件中创建从其他的RDD转化而来RDD编程常用API算子分类Transformation概述帮助文档常用Transformation表Transformation使用实例Action帮助文档常用Action表Action使用实例三种方式从一个集合中创建valrdd1=sc.pa...
代码星球
·
2020-08-09
Spark
快来
学习
RDD
创建
【Spark】RDD(Resilient Distributed Dataset)究竟是什么?
目录基本概念官方文档概述含义RDD出现的原因五大属性以单词统计为例,一张图熟悉RDD当中的五大属性解构图RDD弹性RDD特点分区只读依赖缓存checkpoint基本概念官方文档介绍RDD的官方说明:http://spark.apache.org/docs/latest/rdd-programming-guide.htm...
代码星球
·
2020-08-09
Spark
RDD
Resilient
Distributed
Dataset
【Spark】使用java语言开发spark程序
目录步骤一、创建maven工程,导入jar包二、开发代码步骤一、创建maven工程,导入jar包<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version&...
代码星球
·
2020-08-09
Spark
使用
java
语言
开发
【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件
目录可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFS二、开发scala代码standAlone模式查看HDFS上的文件步骤一、退出local模式,重新进入Spark-shell二、开发scala代码可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFScd/export/servers...
代码星球
·
2020-08-09
Spark
Spark-shell
案例
standAlone
模式
【Spark】Spark-shell案例——单词计数统计
目录步骤一、准备本地文件以作测试二、通过--master启动本地模式三、开发scala单词统计代码步骤一、准备本地文件以作测试在第一台机器执行mkdir-p/export/servers/sparkdatascd/export/servers/sparkdatas/vimwordcount.txthellomehell...
代码星球
·
2020-08-09
Spark
Spark-shell
案例
单词
计数
【Spark】不熟悉Spark-shell常用参数?这一张图就够了
...
代码星球
·
2020-08-09
Spark
不熟悉
Spark-shell
常用
参数
【Spark】一张图看懂Spark的运行架构,以standAlone模式为例
...
代码星球
·
2020-08-09
Spark
一张
看懂
运行
架构
首页
上一页
...
17
18
19
20
21
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他