#ARK

docker使用Dockerfile搭建spark集群

1、创建Dockerfile文件,内容如下#基础镜像,包括jdkFROMopenjdk:8u131-jre-alpine#作者LABELmaintainer"tony@163.com"#用户USERroot#编码ENVLANG=C.UTF-8TZ=Asia/Shanghai#下载到时候安装spark需要的工具RUNap...

Spark 数据源

一、mysql作为数据源importorg.apache.spark.sql.{DataFrame,Dataset,Row,SparkSession}/***mysql作为数据源**schema信息*root*|--uid:integer(nullable=false)*|--xueyuan:string(nullab...
代码星球 ·2020-12-18

Spark SQL

一、SparkSQL介绍1、概述:sparkSQL是spark用来处理结构化数据的一个模块。sparkSQL提供了一个编程的抽象叫做DataFrame并且作为我们分布式SQL的查询引擎2、作用:用来处理结构化数据,先将非结构化的数据转成结构化数据。3、SparkSQL提供了两种编程模型:1)SQL的方式select*f...
代码星球 ·2020-12-18

Spark-自定义排序

一、自定义排序规则-封装类importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/***实现自定义的排序*/objectMySort1{defmain(args:Array[String]):Unit={//1.spar...
代码星球 ·2020-12-18

Spark-Cache与Checkpoint

一、Cache缓存操作scala>valrdd1=sc.textFile("hdfs://192.168.146.111:9000/logs")rdd1:org.apache.spark.rdd.RDD[String]=hdfs://192.168.146.111:9000/logsMapPartitionsRD...
代码星球 ·2020-12-18

Spark与mysql整合

一、需求:把最终结果存储在mysql中1、UrlGroupCount1类importjava.net.URLimportjava.sql.DriverManagerimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}/...
代码星球 ·2020-12-18

Spark-RDD算子

一、Spark-RDD算子简介RDD(ResilientDistributedDataSet)是分布式数据集。RDD是Spark最基本的数据的抽象。scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。RDD特点:具有数据流模型的特点自动容错位置感知调度可伸缩性RDD允许用户在执行多个查询时...
代码星球 ·2020-12-18

Spark集群安装和WordCount编写

一、Spark概述官网:http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。为大数据处理而设计的快速通用的计算引擎。Spark加州大学伯克利分校AMP实验室。不同于mapreduce的是一个Spark任务的中间结果保存到内存中。空间换时间。Spark启...

Markdown 语法手册

https://blog.csdn.net/witnessai1/article/details/52551362 代码:*斜体*或_斜体_**粗体*****加粗斜体***~~删除线~~显示效果:这是一段斜体这是一段粗体这是一段加粗斜体这是一段删除线第一种写法:这是一个一级标题================...
代码星球 ·2020-12-17

Markdown语法说明

说明:本文原载于markdown.tw网站,本次转载时为方便阅读,将其改为简体中文,并修改个别用语。@hi_jeanneNOTE: ThisisSimplifiedChineseEditionDocumentofMarkdownSyntax.IfyouareseekingforEnglishEditionDo...
代码星球 ·2020-12-17

RF的特征子集选取策略(spark ml)

支持连续变量和类别变量,类别变量就是某个属性有三个值,a,b,c,需要用FeatureTransformers中的vectorindexer处理上来是一堆参数setMaxDepth:最大树深度setMaxBins:最大装箱数,为了近似统计变量,比如变量有100个值,我只分成10段去做统计setMinInstancesP...

Benchmark简介

一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“Ascomputerarchitectureadvanced,itbecamemoredifficulttocomparetheperformanceofvariouscomputersyste...
代码星球 ·2020-12-17

Installing Apache Spark on Ubuntu 16.04

SantoshSrinivason07Nov2016,taggedonApacheSpark,Analytics,DataMinin I'vefinallygottoalongpendingto-do-itemtoplaywithApacheSpark. Thefollowinginstallati...

spark启动后出现“JAVA_HOME not set” 异常和"org.apache.hadoop.security.AccessControlException"异常

 /home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://master01:8080/ 到...

Spark的转化和行动(transformations和action)

 //**********************装换操作*********************1、defmap[U:ClassTag](f:T=>U):RDD[U]  将函数应用于RDD的每一元素,并返回一个新的RDD2、deffilter(f:T=>Boolean):R...
首页上一页...7891011...下一页尾页