ARK主题的文章列表，还有ARK的技术要点_第19页

【Spark】DataFrame关于数据常用操作

文章目录DSL语法概述实例操作SQL语法概述实例操作概述1.查看全表数据——DataFrame.show2.查看部分字段数据（有4种方法） (1)DataFrame.select("字段名称").show (2)DataFrame.select($"字段名称").show（推荐） (3)DataFrame.select...

代码星球 ·2020-08-09

【Spark】通过创建DataFrame读取不同类型文件内容

文章目录读取文本文件第一种方法：通过RDD配合caseclass转换DataFrame步骤一、创建测试所需的文本文件二、在spark-shell中执行以下操作第二种方法：通过sparkSession构建DataFrame读取json文件读取parquet列式存储文件第一种方法：通过RDD配合caseclass转换Dat...

代码星球 ·2020-08-09

【Spark】Spark任务调度相关知识

文章目录准备知识DAG概述shuffle概述SortShuffleManager普通机制bypass机制Spark任务调度流程要弄清楚Spark的任务调度流程，就必须要清楚RDD、Lineage、DAG和shuffle的相关知识，关于RDD和Lineage，我的这两天文章已经有过相关介绍，感兴趣可以去看一看【Spark...

代码星球 ·2020-08-09

【Spark】RDD的依赖关系和缓存相关知识点

文章目录RDD的依赖关系宽依赖窄依赖血统RDD缓存概述缓存方式RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖（narrowdependency）和宽依赖（widedependency）。宽依赖宽依赖指的是子RDD中的数据来源于父RDD中的多个分区，其实就是产生了shuffle窄依赖窄依赖指的是子RDD中的数据...

代码星球 ·2020-08-09

【Spark】如何用Spark查询IP地址？

文章目录需求思路ip地址转换为Long类型的两种方法ip地址转换数字地址的原理第一种方法第二种方法步骤一、在mysql创建数据库表二、开发代码日常生活中，当我们打开地图时，会通过地图道路颜色获取当前交通情况，也可以通过地图上经常网购的IP地址热力图得出哪些地区网购观念更发达，还有当前疫情的情况，各个地区疫情的热力图可以...

代码星球 ·2020-08-09

【Spark】通过Spark实现点击流日志分析

文章目录数据大致内容及格式统计PV(PageViews)统计UV(UniqueVisitor)求取TopN194.237.142.21--[18/Sep/2013:06:49:18+0000]"GET/wp-content/uploads/2013/07/rstudio-git3.pngHTTP/1.1"3040"-"...

代码星球 ·2020-08-09

Spark离线日志分析，连接Spark出现报错

首先，我的代码是这样的importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectPvCount{defmain(args:Array[String]):Unit={//获取SparkConfvalsparkCon...

代码星球 ·2020-08-09

【Scala】利用akka实现Spark启动通信

文章目录思路分析步骤一、创建maven工程，导包二、master进程代码开发三、worker进程代码开发1.首先启动master，然后依次启动worker2.启动worker时，向master发送注册信息（使用caseclass封装注册信息——workerID,memory,cores）3.接收注册信息，保存注册的wo...

代码星球 ·2020-08-09

【Spark】快来学习RDD的创建以及操作方式吧！

目录RDD的创建三种方式从一个集合中创建从文件中创建从其他的RDD转化而来RDD编程常用API算子分类Transformation概述帮助文档常用Transformation表Transformation使用实例Action帮助文档常用Action表Action使用实例三种方式从一个集合中创建valrdd1=sc.pa...

代码星球 ·2020-08-09

【Spark】RDD(Resilient Distributed Dataset)究竟是什么？

目录基本概念官方文档概述含义RDD出现的原因五大属性以单词统计为例，一张图熟悉RDD当中的五大属性解构图RDD弹性RDD特点分区只读依赖缓存checkpoint基本概念官方文档介绍RDD的官方说明：http://spark.apache.org/docs/latest/rdd-programming-guide.htm...

代码星球 ·2020-08-09

【Spark】使用java语言开发spark程序

目录步骤一、创建maven工程，导入jar包二、开发代码步骤一、创建maven工程，导入jar包<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version&...

代码星球 ·2020-08-09

【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件

目录可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFS二、开发scala代码standAlone模式查看HDFS上的文件步骤一、退出local模式，重新进入Spark-shell二、开发scala代码可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFScd/export/servers...

代码星球 ·2020-08-09

【Spark】Spark-shell案例——单词计数统计

目录步骤一、准备本地文件以作测试二、通过--master启动本地模式三、开发scala单词统计代码步骤一、准备本地文件以作测试在第一台机器执行mkdir-p/export/servers/sparkdatascd/export/servers/sparkdatas/vimwordcount.txthellomehell...

代码星球 ·2020-08-09

【Spark】不熟悉Spark-shell常用参数？这一张图就够了

...

代码星球 ·2020-08-09

【Spark】一张图看懂Spark的运行架构，以standAlone模式为例

...

代码星球 ·2020-08-09