#park

【Spark】帮你搞明白怎么通过SparkSQL整合Hive

文章目录一、创建maven工程,导包二、开发代码<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version></properties>&l...

【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

文章目录需求概述步骤一、创建Maven工程并导包二、选用第一种方法:利用反射机制配合样例类构建DataFrame开发代码选用第二种方法:通过StrucType配合Row构建DataFrame开发代码将RDD转换得到DataFrame,主要有两种方法:利用反射机制和通过编程结构与RDD进行交互。步骤一、创建Maven工程...

【Spark】DataFrame关于数据常用操作

文章目录DSL语法概述实例操作SQL语法概述实例操作概述1.查看全表数据——DataFrame.show2.查看部分字段数据(有4种方法) (1)DataFrame.select("字段名称").show (2)DataFrame.select($"字段名称").show(推荐) (3)DataFrame.select...

【Spark】通过创建DataFrame读取不同类型文件内容

文章目录读取文本文件第一种方法:通过RDD配合caseclass转换DataFrame步骤一、创建测试所需的文本文件二、在spark-shell中执行以下操作第二种方法:通过sparkSession构建DataFrame读取json文件读取parquet列式存储文件第一种方法:通过RDD配合caseclass转换Dat...

【Spark】Spark任务调度相关知识

文章目录准备知识DAG概述shuffle概述SortShuffleManager普通机制bypass机制Spark任务调度流程要弄清楚Spark的任务调度流程,就必须要清楚RDD、Lineage、DAG和shuffle的相关知识,关于RDD和Lineage,我的这两天文章已经有过相关介绍,感兴趣可以去看一看【Spark...

【Spark】RDD的依赖关系和缓存相关知识点

文章目录RDD的依赖关系宽依赖窄依赖血统RDD缓存概述缓存方式RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrowdependency)和宽依赖(widedependency)。宽依赖宽依赖指的是子RDD中的数据来源于父RDD中的多个分区,其实就是产生了shuffle窄依赖窄依赖指的是子RDD中的数据...

【Spark】如何用Spark查询IP地址?

文章目录需求思路ip地址转换为Long类型的两种方法ip地址转换数字地址的原理第一种方法第二种方法步骤一、在mysql创建数据库表二、开发代码日常生活中,当我们打开地图时,会通过地图道路颜色获取当前交通情况,也可以通过地图上经常网购的IP地址热力图得出哪些地区网购观念更发达,还有当前疫情的情况,各个地区疫情的热力图可以...

【Spark】通过Spark实现点击流日志分析

文章目录数据大致内容及格式统计PV(PageViews)统计UV(UniqueVisitor)求取TopN194.237.142.21--[18/Sep/2013:06:49:18+0000]"GET/wp-content/uploads/2013/07/rstudio-git3.pngHTTP/1.1"3040"-"...

Spark离线日志分析,连接Spark出现报错

首先,我的代码是这样的importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectPvCount{defmain(args:Array[String]):Unit={//获取SparkConfvalsparkCon...

【Scala】利用akka实现Spark启动通信

文章目录思路分析步骤一、创建maven工程,导包二、master进程代码开发三、worker进程代码开发1.首先启动master,然后依次启动worker2.启动worker时,向master发送注册信息(使用caseclass封装注册信息——workerID,memory,cores)3.接收注册信息,保存注册的wo...

【Spark】快来学习RDD的创建以及操作方式吧!

目录RDD的创建三种方式从一个集合中创建从文件中创建从其他的RDD转化而来RDD编程常用API算子分类Transformation概述帮助文档常用Transformation表Transformation使用实例Action帮助文档常用Action表Action使用实例三种方式从一个集合中创建valrdd1=sc.pa...

【Spark】RDD(Resilient Distributed Dataset)究竟是什么?

目录基本概念官方文档概述含义RDD出现的原因五大属性以单词统计为例,一张图熟悉RDD当中的五大属性解构图RDD弹性RDD特点分区只读依赖缓存checkpoint基本概念官方文档介绍RDD的官方说明:http://spark.apache.org/docs/latest/rdd-programming-guide.htm...

【Spark】使用java语言开发spark程序

目录步骤一、创建maven工程,导入jar包二、开发代码步骤一、创建maven工程,导入jar包<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version&...

【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件

目录可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFS二、开发scala代码standAlone模式查看HDFS上的文件步骤一、退出local模式,重新进入Spark-shell二、开发scala代码可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFScd/export/servers...

【Spark】Spark-shell案例——单词计数统计

目录步骤一、准备本地文件以作测试二、通过--master启动本地模式三、开发scala单词统计代码步骤一、准备本地文件以作测试在第一台机器执行mkdir-p/export/servers/sparkdatascd/export/servers/sparkdatas/vimwordcount.txthellomehell...
首页上一页...89101112...下一页尾页