spark主题的文章列表，还有spark的技术要点_第3页

Spark 1.6.1分布式集群环境搭建

scala-2.11.8.tgzspark-1.6.1-bin-hadoop2.6.tgz(1)下载 scala-2.11.8.tgz，解压到/opt目录下，即：/opt/scala-2.11.8。(2)修改scala-2.11.8目录所属用户和用户组。 ?1sudochown-Rhadoop:ha...

代码星球 ·2021-02-08

spark：expression 'xxx' is neither present in the group by

同一段SQL，在MYSQL中测试通过，挪到大数据执行报错：org.apache.spark.sql.AnalysisException:expression'xxx'isneitherpresentinthegroupby,norisitanaggregatefunction.Addtogroupbyorwrapinf...

代码星球 ·2021-01-23

Spark 编程模型(下)

创建PairRDD什么是PairRDD●包含键值对类型的RDD被称作PairRDD●PairRDD通常用来进行聚合计算●PairRDD通常由普通RDD做ETL转换而来创建PairRDD●Python:pairs=lines.map(lambdax:(x.split("")[0],x))●Scala:valpairs=l...

代码星球 ·2020-12-29

Spark 编程模型(中)

创建RDD方式一：从集合创建RDD●makeRDD●Parallelize注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。方式二：读取外部存储创建RDDSpark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型，Spark同样支持。●多文...

代码星球 ·2020-12-29

Spark 编程模型(上)

从HadoopMR到Spark回顾hadoop—mapreduce计算过程MRVSSparkSpark编程模型核心概念注意：对比mr里的概念来学习SparkApplication的组成Spark应用程序的组成●Driver●Executor注意：对照helloworld来思考SparkApplication...

代码星球 ·2020-12-29

Spark编程环境搭建

基于IntellijIDEA搭建Spark开发环境搭基于IntellijIDEA搭建Spark开发环境搭——参考文档●参考文档http://spark.apache.org/docs/latest/programming-guide.html●操作步骤a)创建maven项目b)引入依赖（Spar...

代码星球 ·2020-12-29

docker使用Dockerfile搭建spark集群

1、创建Dockerfile文件，内容如下#基础镜像，包括jdkFROMopenjdk:8u131-jre-alpine#作者LABELmaintainer"tony@163.com"#用户USERroot#编码ENVLANG=C.UTF-8TZ=Asia/Shanghai#下载到时候安装spark需要的工具RUNap...

代码星球 ·2020-12-18

Spark 数据源

一、mysql作为数据源importorg.apache.spark.sql.{DataFrame,Dataset,Row,SparkSession}/***mysql作为数据源**schema信息*root*|--uid:integer(nullable=false)*|--xueyuan:string(nullab...

代码星球 ·2020-12-18

Spark SQL

一、SparkSQL介绍1、概述：sparkSQL是spark用来处理结构化数据的一个模块。sparkSQL提供了一个编程的抽象叫做DataFrame并且作为我们分布式SQL的查询引擎2、作用：用来处理结构化数据，先将非结构化的数据转成结构化数据。3、SparkSQL提供了两种编程模型：1）SQL的方式select*f...

代码星球 ·2020-12-18

Spark-自定义排序

一、自定义排序规则-封装类importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/***实现自定义的排序*/objectMySort1{defmain(args:Array[String]):Unit={//1.spar...

代码星球 ·2020-12-18

Spark-Cache与Checkpoint

一、Cache缓存操作scala>valrdd1=sc.textFile("hdfs://192.168.146.111:9000/logs")rdd1:org.apache.spark.rdd.RDD[String]=hdfs://192.168.146.111:9000/logsMapPartitionsRD...

代码星球 ·2020-12-18

Spark与mysql整合

一、需求：把最终结果存储在mysql中1、UrlGroupCount1类importjava.net.URLimportjava.sql.DriverManagerimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/...

代码星球 ·2020-12-18

Spark-RDD算子

一、Spark-RDD算子简介RDD(ResilientDistributedDataSet)是分布式数据集。RDD是Spark最基本的数据的抽象。scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。RDD特点：具有数据流模型的特点自动容错位置感知调度可伸缩性RDD允许用户在执行多个查询时...

代码星球 ·2020-12-18

Spark集群安装和WordCount编写

一、Spark概述官网：http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。为大数据处理而设计的快速通用的计算引擎。Spark加州大学伯克利分校AMP实验室。不同于mapreduce的是一个Spark任务的中间结果保存到内存中。空间换时间。Spark启...

代码星球 ·2020-12-18

RF的特征子集选取策略（spark ml）

支持连续变量和类别变量，类别变量就是某个属性有三个值,a,b,c，需要用FeatureTransformers中的vectorindexer处理上来是一堆参数setMaxDepth：最大树深度setMaxBins：最大装箱数，为了近似统计变量，比如变量有100个值，我只分成10段去做统计setMinInstancesP...

代码星球 ·2020-12-17