51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#sparkSql
大数据学习——sparkSql对接hive
1. 安装mysql在随便一台有hadoop环境的机器上上传安装文件su-hadooprz–y解压缩:apache-hive-1.0.1-bin.tar.gztar-zxvf apache-hive-1.0.1-bin.tar.gzmvapache-hive-1.0.1-binhives...
代码星球
·
2021-02-17
数据
学习
sparkSql
对接
hive
大数据学习——sparkSql对接mysql
1上传jar2加载驱动包[root@mini1bin]# ./spark-shell--masterspark://mini1:7077--jarsmysql-connector-java-5.1.32.jar--driver-class-pathmysql-connector-java-5.1.32.jar...
代码星球
·
2021-02-17
数据
学习
sparkSql
对接
mysql
大数据学习——sparkSql
官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.htmlvalsc:SparkContext//AnexistingSparkContext.valsqlContext=neworg.apache.spark.sql.SQLContext(sc)va...
代码星球
·
2021-02-17
数据
学习
sparkSql
SparkSQL(一)——概述
什么是sparksql它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口,而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点,专门用于访问结构化的数据。sql语句在底层转换成RDD,类似于hql语句在底层转换成mr程序,但是sparksql的...
代码星球
·
2020-10-20
SparkSQL
概述
SparkSQL(六)——案例实战
首先我们的数据源如下: tbDate这张表记录的是时间信息;tbStockDetail这张表记录的订单的详细信息;tbStock这张表将订单与实践和地点两个维度的信息连接在一起。数据属性如下:每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。也就是说:tbStock与tbStockD...
代码星球
·
2020-10-20
SparkSQL
案例
实战
SparkSQL(五)——数据源
通用加载保存方法SparkSQL的默认数据源为Parquet格式。数据源为Parquet文件时,SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default,可修改默认数据源格式。此时,可以使用spark.read.load和spar.write.save方法,分别从parqu...
代码星球
·
2020-10-20
SparkSQL
数据源
SparkSQL(四)——用户自定义函数
用户自定义聚合函数强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数,如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数通过继承UserDefinedAggr...
代码星球
·
2020-10-20
SparkSQL
用户
自定义
函数
SparkSQL(三)——idea开发SparkSQL程序
首先导入maven依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version&...
代码星球
·
2020-10-20
SparkSQL
idea
开发
程序
SparkSQL(二)——基本操作
SparkSession新的起点在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的...
代码星球
·
2020-10-20
SparkSQL
基本操作
Spark SQL入门到实战之(3)sparkSql从入门到实战
1.1什么是SparkSQLSparkSQL:http://spark.apache.org/sql/SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将HiveSQL转换成Map...
代码星球
·
2020-09-19
入门
实战
Spark
SQL
sparkSql
【Spark】帮你搞明白怎么通过SparkSQL整合Hive
文章目录一、创建maven工程,导包二、开发代码<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version></properties>&l...
代码星球
·
2020-08-09
Spark
帮你
明白
怎么
通过
SparkSql 不支持Date Format (支持Timestamp)
最近项目中需要用到sparksql,需要查询sqlDate类型,无奈,官方现阶段1.6.0还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了。1.解析SimpleDateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");Dateb...
代码星球
·
2020-04-08
SparkSql
不支持
Date
Format
支持
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他