#spark

SparkSQL(五)——数据源

通用加载保存方法SparkSQL的默认数据源为Parquet格式。数据源为Parquet文件时,SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default,可修改默认数据源格式。此时,可以使用spark.read.load和spar.write.save方法,分别从parqu...
代码星球 ·2020-10-20

SparkSQL(四)——用户自定义函数

 用户自定义聚合函数强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数,如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数通过继承UserDefinedAggr...

SparkSQL(三)——idea开发SparkSQL程序

首先导入maven依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version&...
代码星球 ·2020-10-20

SparkSQL(二)——基本操作

SparkSession新的起点在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的...
代码星球 ·2020-10-20

spark安装和使用

local模式概述local模式就是在一台计算机上运行spark程序,通常用于在本机上练手和测试,它将线程映射为worker。  1)local:所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式;2)local[K]:指定使用几个线程来运行计算,...
代码星球 ·2020-10-20

spark计算模型

spark为什么比mapreduce快mapreduce的数据处理过程是:把数据从磁盘读到内存,在内存中完成计算,再写回磁盘。下一个mr程序要继续对这批数据进行处理,又要重复这一过程。有多少个mr程序,就有多少次读磁盘和写磁盘的过程,效率低下。spark的数据处理过程是:把数据读到内存之后,在多个RDD之间形成转换流,...
代码星球 ·2020-10-20

Hadoop概念学习系列之Hadoop、Spark学习路线

 1Java基础:   视频方面:     推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。&nb...

SparkStreaming入门到实战之(17)--大数据场景下数据异构之 Mysql实时写入HBase(借助canal kafka SparkStreaming)

 背景:公司线下ETC机房有个Mycat集群,供订单系统使用,现需要进行数据异构将Mysql数据(近)实时写入另一套数据库用作读请求和数据归档用技术选型:binlog解析工具:阿里开源的canal  消息中间件:kafka  流式框架:SparkStreaming上代码...

SparkStreaming入门到实战之(16)--基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

1.Canal是什么?2.如何编写Canal客户端?3.如何编写一个数据库操作的Spark程序代码?4.开发Spark项目时容易发生哪些冲突问题?Spark中的SparkStreaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的...

大数据集群运维(32)spark开发环境详细教程1:IntelliJ IDEA使用详细说明

各种开发环境的搭建,其实都是听简单。甚至我们可以通过命令行来开发。而且最原始的编程,其实可以通过文本或则cmd即可。还有maven,sbt等。后来的发展过程中,为了更加方便我们编程,于是发展出来了,更高级的编程工具,Java有eclipse等工具,而Scala有IntelliJIDEA.当然eclipse也可以写Sca...

大数据集群运维(31)Spark提交任务时报beyond virtual memory limits错误

以Spark-Client模式运行,Spark-Submit时出现了下面的错误:User:hadoopName:SparkPiApplicationType:SPARKApplicationTags:YarnApplicationState:FAILEDFinalStatusReportedbyAM:FAILEDSta...

大数据集群运维(30)spark安装与使用(入门)

一:在linux下安装java环境(自行安装jdk)二:安装Scala2.9.3$tar-zxfscala-2.9.3.tgz$sudomvscala-2.9.3/usr/lib$sudovim/etc/profile#addthefollowinglinesattheendexportSCALA_HOME=/usr/...

大数据集群运维(29)Zeppelin-在flink和spark集群的安装

该教程主要面向Zeppelin的入门者。不需要太多的关于Linux,git,或其它工具的基础知识。如果你按照这里的方法逐项执行,就可以将Zeppelin正常运行起来。安装Zeppelin为Flink/Spark集群模式本教程假定用户有一个新的机器环境(物理机或 virtual 均可,最小安装&nbs...

大数据集群运维(27)Kylin 配置使用 Spark 构建 Cube

HDP版本:2.6.4.0Kylin版本:2.5.1机器:三台CentOS-7,8G内存Kylin的计算引擎除了MapReduce,还有速度更快的Spark,本文就以Kylin自带的示例kylinsalescube来测试一下Spark构建Cube的速度。一、配置Kylin的相关Spark参数在运行Sparkcubing...

大数据集群运维(22)搭建Spark所遇过的坑

一.经验1.SparkStreaming包含三种计算模式:nonstate.stateful.window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的...
首页上一页...34567...下一页尾页