51dev.com IT技术开发者社区

51dev.com 技术开发者社区

【Spark】SparkStreaming从不同基本数据源读取数据

【Spark】SparkStreaming从不同基本数据源读取数据

文章目录基本数据源文件数据源注意事项步骤一、创建maven工程并导包二、在HDFS创建目录,并上传要做测试的数据三、开发SparkStreaming代码四、运行代码后,往HDFS文件夹上传文件五、控制台输出结果自定义数据源步骤一、使用nc工具给指定端口发送数据二、开发代码RDD队列步骤一、开发代码文...

【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

文章目录需求概述步骤一、创建Maven工程并导包二、选用第一种方法:利用反射机制配合样例类构建DataFrame开发代码选用第二种方法:通过StrucType配合Row构建DataFrame开发代码将RDD转换得到DataFrame,主要有两种方法:利用反射机制和通过编程结构与RDD进行交互。步骤一...

【Spark】帮你搞明白怎么通过SparkSQL整合Hive

【Spark】帮你搞明白怎么通过SparkSQL整合Hive

文章目录一、创建maven工程,导包二、开发代码<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version></proper...

【Spark】通过SparkStreaming实现从socket接受数据,并进行简单的单词计数

【Spark】通过SparkStreaming实现从socket接受数据,并进行简单的单词计数

文章目录步骤一、创建maven工程并导入jar包二、安装并启动生产者三、开发SparkStreaming代码四、查看结果一、创建maven工程并导入jar包<properties><scala.version>2.11.8</scala.version><s...

【Spark】通过创建DataFrame读取不同类型文件内容

【Spark】通过创建DataFrame读取不同类型文件内容

文章目录读取文本文件第一种方法:通过RDD配合caseclass转换DataFrame步骤一、创建测试所需的文本文件二、在spark-shell中执行以下操作第二种方法:通过sparkSession构建DataFrame读取json文件读取parquet列式存储文件第一种方法:通过RDD配合case...

【Spark】DataFrame关于数据常用操作

【Spark】DataFrame关于数据常用操作

文章目录DSL语法概述实例操作SQL语法概述实例操作概述1.查看全表数据——DataFrame.show2.查看部分字段数据(有4种方法) (1)DataFrame.select("字段名称").show (2)DataFrame.select($"字段名称").show(推荐) (3)DataFr...

【Spark】Spark任务调度相关知识

【Spark】Spark任务调度相关知识

文章目录准备知识DAG概述shuffle概述SortShuffleManager普通机制bypass机制Spark任务调度流程要弄清楚Spark的任务调度流程,就必须要清楚RDD、Lineage、DAG和shuffle的相关知识,关于RDD和Lineage,我的这两天文章已经有过相关介绍,感兴趣可以...

【Spark】RDD的依赖关系和缓存相关知识点

【Spark】RDD的依赖关系和缓存相关知识点

文章目录RDD的依赖关系宽依赖窄依赖血统RDD缓存概述缓存方式RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrowdependency)和宽依赖(widedependency)。宽依赖宽依赖指的是子RDD中的数据来源于父RDD中的多个分区,其实就是产生了shuffle窄依赖窄依赖指...

【Spark】如何用Spark查询IP地址?

【Spark】如何用Spark查询IP地址?

文章目录需求思路ip地址转换为Long类型的两种方法ip地址转换数字地址的原理第一种方法第二种方法步骤一、在mysql创建数据库表二、开发代码日常生活中,当我们打开地图时,会通过地图道路颜色获取当前交通情况,也可以通过地图上经常网购的IP地址热力图得出哪些地区网购观念更发达,还有当前疫情的情况,各个...

【Spark】通过Spark实现点击流日志分析

【Spark】通过Spark实现点击流日志分析

文章目录数据大致内容及格式统计PV(PageViews)统计UV(UniqueVisitor)求取TopN194.237.142.21--[18/Sep/2013:06:49:18+0000]"GET/wp-content/uploads/2013/07/rstudio-git3.pngHTTP/1...

Spark离线日志分析,连接Spark出现报错

Spark离线日志分析,连接Spark出现报错

首先,我的代码是这样的importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectPvCount{defmain(args:Array[String]):Unit={//获取SparkConfv...

【Scala】利用akka实现Spark启动通信

【Scala】利用akka实现Spark启动通信

文章目录思路分析步骤一、创建maven工程,导包二、master进程代码开发三、worker进程代码开发1.首先启动master,然后依次启动worker2.启动worker时,向master发送注册信息(使用caseclass封装注册信息——workerID,memory,cores)3.接收注册...

【Scala】利用Akka的actor编程模型,实现2个进程间的通信

【Scala】利用Akka的actor编程模型,实现2个进程间的通信

文章目录步骤一、创建maven工程,导入jar包二、master进程代码开发三、worker进程代码开发四、控制台结果一、创建maven工程,导入jar包<properties><maven.compiler.source>1.8</maven.compiler.sou...

【Scala】用实例弄清楚scala几种函数的定义和特点

【Scala】用实例弄清楚scala几种函数的定义和特点

文章目录作为参数的函数匿名函数柯里化函数(currying)闭包函数scala>vala1=Array(1,2,3,4)//这是一个数组a1:Array[Int]=Array(1,2,3,4)scala>valf1=(x:Int)=>x*2//这是一个函数,命名f1f1:Int=&...

【Scala】什么是隐式转换?它又能用来干嘛?该怎么用

【Scala】什么是隐式转换?它又能用来干嘛?该怎么用

文章目录定义隐式参数隐式转换隐式值:给方法提供参数隐式视图将Int和Double类型转换为String狗狗学技能(使用别的类中的方法)使用规则隐式参数隐式参数指在函数或者方法中,定义一个用implicit修饰的参数,此时Scala会尝试找到一个指定类型的,用implicit修饰的参数,即隐式值,并注...