#Park

Spark 1.6.1分布式集群环境搭建

scala-2.11.8.tgzspark-1.6.1-bin-hadoop2.6.tgz(1)下载 scala-2.11.8.tgz,解压到/opt目录下,即:/opt/scala-2.11.8。(2)修改scala-2.11.8目录所属用户和用户组。 ?1sudochown-Rhadoop:ha...

spark:expression 'xxx' is neither present in the group by

同一段SQL,在MYSQL中测试通过,挪到大数据执行报错:org.apache.spark.sql.AnalysisException:expression'xxx'isneitherpresentinthegroupby,norisitanaggregatefunction.Addtogroupbyorwrapinf...

Spark 编程模型(下)

创建PairRDD什么是PairRDD●包含键值对类型的RDD被称作PairRDD●PairRDD通常用来进行聚合计算●PairRDD通常由普通RDD做ETL转换而来创建PairRDD●Python:pairs=lines.map(lambdax:(x.split("")[0],x))●Scala:valpairs=l...
代码星球 代码星球·2020-12-29

Spark 编程模型(中)

创建RDD方式一:从集合创建RDD●makeRDD●Parallelize注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。方式二:读取外部存储创建RDDSpark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。●多文...
代码星球 代码星球·2020-12-29

Spark 编程模型(上)

从HadoopMR到Spark回顾hadoop—mapreduce计算过程MRVSSparkSpark编程模型核心概念注意:对比mr里的概念来学习SparkApplication的组成Spark应用程序的组成●Driver●Executor注意:对照helloworld来思考SparkApplication...
代码星球 代码星球·2020-12-29

Spark编程环境搭建

基于IntellijIDEA搭建Spark开发环境搭基于IntellijIDEA搭建Spark开发环境搭——参考文档●参考文档http://spark.apache.org/docs/latest/programming-guide.html●操作步骤a)创建maven项目b)引入依赖(Spar...
代码星球 代码星球·2020-12-29

docker使用Dockerfile搭建spark集群

1、创建Dockerfile文件,内容如下#基础镜像,包括jdkFROMopenjdk:8u131-jre-alpine#作者LABELmaintainer"tony@163.com"#用户USERroot#编码ENVLANG=C.UTF-8TZ=Asia/Shanghai#下载到时候安装spark需要的工具RUNap...

Spark 数据源

一、mysql作为数据源importorg.apache.spark.sql.{DataFrame,Dataset,Row,SparkSession}/***mysql作为数据源**schema信息*root*|--uid:integer(nullable=false)*|--xueyuan:string(nullab...
代码星球 代码星球·2020-12-18

Spark SQL

一、SparkSQL介绍1、概述:sparkSQL是spark用来处理结构化数据的一个模块。sparkSQL提供了一个编程的抽象叫做DataFrame并且作为我们分布式SQL的查询引擎2、作用:用来处理结构化数据,先将非结构化的数据转成结构化数据。3、SparkSQL提供了两种编程模型:1)SQL的方式select*f...
代码星球 代码星球·2020-12-18

Spark-自定义排序

一、自定义排序规则-封装类importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/***实现自定义的排序*/objectMySort1{defmain(args:Array[String]):Unit={//1.spar...
代码星球 代码星球·2020-12-18

Spark-Cache与Checkpoint

一、Cache缓存操作scala>valrdd1=sc.textFile("hdfs://192.168.146.111:9000/logs")rdd1:org.apache.spark.rdd.RDD[String]=hdfs://192.168.146.111:9000/logsMapPartitionsRD...
代码星球 代码星球·2020-12-18

Spark与mysql整合

一、需求:把最终结果存储在mysql中1、UrlGroupCount1类importjava.net.URLimportjava.sql.DriverManagerimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/...
代码星球 代码星球·2020-12-18

Spark-RDD算子

一、Spark-RDD算子简介RDD(ResilientDistributedDataSet)是分布式数据集。RDD是Spark最基本的数据的抽象。scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。RDD特点:具有数据流模型的特点自动容错位置感知调度可伸缩性RDD允许用户在执行多个查询时...
代码星球 代码星球·2020-12-18

Spark集群安装和WordCount编写

一、Spark概述官网:http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。为大数据处理而设计的快速通用的计算引擎。Spark加州大学伯克利分校AMP实验室。不同于mapreduce的是一个Spark任务的中间结果保存到内存中。空间换时间。Spark启...

RF的特征子集选取策略(spark ml)

支持连续变量和类别变量,类别变量就是某个属性有三个值,a,b,c,需要用FeatureTransformers中的vectorindexer处理上来是一堆参数setMaxDepth:最大树深度setMaxBins:最大装箱数,为了近似统计变量,比如变量有100个值,我只分成10段去做统计setMinInstancesP...
首页上一页12345...下一页尾页