51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#ARK
docker使用Dockerfile搭建spark集群
1、创建Dockerfile文件,内容如下#基础镜像,包括jdkFROMopenjdk:8u131-jre-alpine#作者LABELmaintainer"tony@163.com"#用户USERroot#编码ENVLANG=C.UTF-8TZ=Asia/Shanghai#下载到时候安装spark需要的工具RUNap...
代码星球
·
2020-12-18
docker
使用
Dockerfile
搭建
spark
Spark 数据源
一、mysql作为数据源importorg.apache.spark.sql.{DataFrame,Dataset,Row,SparkSession}/***mysql作为数据源**schema信息*root*|--uid:integer(nullable=false)*|--xueyuan:string(nullab...
代码星球
·
2020-12-18
Spark
数据源
Spark SQL
一、SparkSQL介绍1、概述:sparkSQL是spark用来处理结构化数据的一个模块。sparkSQL提供了一个编程的抽象叫做DataFrame并且作为我们分布式SQL的查询引擎2、作用:用来处理结构化数据,先将非结构化的数据转成结构化数据。3、SparkSQL提供了两种编程模型:1)SQL的方式select*f...
代码星球
·
2020-12-18
Spark
SQL
Spark-自定义排序
一、自定义排序规则-封装类importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/***实现自定义的排序*/objectMySort1{defmain(args:Array[String]):Unit={//1.spar...
代码星球
·
2020-12-18
Spark-
自定义
排序
Spark-Cache与Checkpoint
一、Cache缓存操作scala>valrdd1=sc.textFile("hdfs://192.168.146.111:9000/logs")rdd1:org.apache.spark.rdd.RDD[String]=hdfs://192.168.146.111:9000/logsMapPartitionsRD...
代码星球
·
2020-12-18
Spark-Cache
Checkpoint
Spark与mysql整合
一、需求:把最终结果存储在mysql中1、UrlGroupCount1类importjava.net.URLimportjava.sql.DriverManagerimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/...
代码星球
·
2020-12-18
Spark
mysql
整合
Spark-RDD算子
一、Spark-RDD算子简介RDD(ResilientDistributedDataSet)是分布式数据集。RDD是Spark最基本的数据的抽象。scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。RDD特点:具有数据流模型的特点自动容错位置感知调度可伸缩性RDD允许用户在执行多个查询时...
代码星球
·
2020-12-18
Spark-RDD
算子
Spark集群安装和WordCount编写
一、Spark概述官网:http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。为大数据处理而设计的快速通用的计算引擎。Spark加州大学伯克利分校AMP实验室。不同于mapreduce的是一个Spark任务的中间结果保存到内存中。空间换时间。Spark启...
代码星球
·
2020-12-18
Spark
集群
安装
WordCount
编写
Markdown 语法手册
https://blog.csdn.net/witnessai1/article/details/52551362 代码:*斜体*或_斜体_**粗体*****加粗斜体***~~删除线~~显示效果:这是一段斜体这是一段粗体这是一段加粗斜体这是一段删除线第一种写法:这是一个一级标题================...
代码星球
·
2020-12-17
Markdown
语法
手册
Markdown语法说明
说明:本文原载于markdown.tw网站,本次转载时为方便阅读,将其改为简体中文,并修改个别用语。@hi_jeanneNOTE: ThisisSimplifiedChineseEditionDocumentofMarkdownSyntax.IfyouareseekingforEnglishEditionDo...
代码星球
·
2020-12-17
Markdown
语法
说明
RF的特征子集选取策略(spark ml)
支持连续变量和类别变量,类别变量就是某个属性有三个值,a,b,c,需要用FeatureTransformers中的vectorindexer处理上来是一堆参数setMaxDepth:最大树深度setMaxBins:最大装箱数,为了近似统计变量,比如变量有100个值,我只分成10段去做统计setMinInstancesP...
代码星球
·
2020-12-17
RF
特征
子集
选取
策略
Benchmark简介
一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“Ascomputerarchitectureadvanced,itbecamemoredifficulttocomparetheperformanceofvariouscomputersyste...
代码星球
·
2020-12-17
Benchmark
简介
Installing Apache Spark on Ubuntu 16.04
SantoshSrinivason07Nov2016,taggedonApacheSpark,Analytics,DataMinin I'vefinallygottoalongpendingto-do-itemtoplaywithApacheSpark. Thefollowinginstallati...
代码星球
·
2020-12-17
Installing
Apache
Spark
on
Ubuntu
spark启动后出现“JAVA_HOME not set” 异常和"org.apache.hadoop.security.AccessControlException"异常
/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://master01:8080/ 到...
代码星球
·
2020-11-27
异常
spark
启动
出现
JAVA
Spark的转化和行动(transformations和action)
//**********************装换操作*********************1、defmap[U:ClassTag](f:T=>U):RDD[U] 将函数应用于RDD的每一元素,并返回一个新的RDD2、deffilter(f:T=>Boolean):R...
代码星球
·
2020-11-27
Spark
转化
行动
transformations
action
首页
上一页
...
7
8
9
10
11
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他