#sparkSql

大数据学习——sparkSql对接hive

1.  安装mysql在随便一台有hadoop环境的机器上上传安装文件su-hadooprz–y解压缩:apache-hive-1.0.1-bin.tar.gztar-zxvf apache-hive-1.0.1-bin.tar.gzmvapache-hive-1.0.1-binhives...

大数据学习——sparkSql对接mysql

1上传jar2加载驱动包[root@mini1bin]# ./spark-shell--masterspark://mini1:7077--jarsmysql-connector-java-5.1.32.jar--driver-class-pathmysql-connector-java-5.1.32.jar...

大数据学习——sparkSql

官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.htmlvalsc:SparkContext//AnexistingSparkContext.valsqlContext=neworg.apache.spark.sql.SQLContext(sc)va...
代码星球 ·2021-02-17

SparkSQL(一)——概述

什么是sparksql它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口,而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点,专门用于访问结构化的数据。sql语句在底层转换成RDD,类似于hql语句在底层转换成mr程序,但是sparksql的...
代码星球 ·2020-10-20

SparkSQL(六)——案例实战

首先我们的数据源如下: tbDate这张表记录的是时间信息;tbStockDetail这张表记录的订单的详细信息;tbStock这张表将订单与实践和地点两个维度的信息连接在一起。数据属性如下:每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。也就是说:tbStock与tbStockD...
代码星球 ·2020-10-20

SparkSQL(五)——数据源

通用加载保存方法SparkSQL的默认数据源为Parquet格式。数据源为Parquet文件时,SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default,可修改默认数据源格式。此时,可以使用spark.read.load和spar.write.save方法,分别从parqu...
代码星球 ·2020-10-20

SparkSQL(四)——用户自定义函数

 用户自定义聚合函数强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数,如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数通过继承UserDefinedAggr...

SparkSQL(三)——idea开发SparkSQL程序

首先导入maven依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version&...
代码星球 ·2020-10-20

SparkSQL(二)——基本操作

SparkSession新的起点在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的...
代码星球 ·2020-10-20

Spark SQL入门到实战之(3)sparkSql从入门到实战

  1.1什么是SparkSQLSparkSQL:http://spark.apache.org/sql/SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将HiveSQL转换成Map...

【Spark】帮你搞明白怎么通过SparkSQL整合Hive

文章目录一、创建maven工程,导包二、开发代码<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version></properties>&l...

SparkSql 不支持Date Format (支持Timestamp)

最近项目中需要用到sparksql,需要查询sqlDate类型,无奈,官方现阶段1.6.0还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了。1.解析SimpleDateFormatdateFormat=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");Dateb...