51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#spark
spark机器学习从0到1决策树(六)
决策树及其集合是分类和回归的机器学习任务的流行方法。决策树被广泛使用,因为它们易于解释,处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互。诸如随机森林和增强的树集合算法是分类和回归任务的最佳表现者。决策树(decisiontree)是一种基本的分类与回归方法,这里主要介绍用于分...
代码星球
·
2020-09-05
spark
机器
学习
决策树
spark机器学习从0到1支持向量机SVM(五)
分类旨在将项目分为不同类别。最常见的分类类型是二元分类,其中有两类,通常分别为正数和负数。如果有两个以上的类别,则称为多类分类。spark.mllib支持两种线性分类方法:线性支持向量机(SVM)和逻辑回归。线性SVM仅支持二进制分类,而逻辑回归支持二进制和多类分类问题。对于这两种方法,spar...
代码星球
·
2020-09-05
spark
机器
学习
支持
向量机
spark机器学习从0到1逻辑斯蒂回归之(四)
逻辑斯蒂回归逻辑斯蒂回归(logisticregression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。logistic回归的因变量可以是二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中...
代码星球
·
2020-09-05
spark
机器
学习
逻辑
斯蒂
spark机器学习从0到1基本的统计工具之(三)
给定一个数据集,数据分析师一般会先观察一下数据集的基本情况,称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值,包括位置或集中趋势(比如算术平均值、中位数、众数和四分位均值),展型(比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等),统计离差,分布的形状,依赖性等。除此之外,sp...
代码星球
·
2020-09-05
spark
机器
学习
基本
统计
spark机器学习从0到1基本数据类型之(二)
MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型。底层线性代数操作由Breeze提供。在监督学习中使用的训练示例在...
代码星球
·
2020-09-05
spark
机器
学习
基本
数据
spark机器学习从0到1介绍入门之(一)
一、什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途...
代码星球
·
2020-09-05
spark
机器
学习
介绍
入门
sparkcore入门到实战之(4)Spark_Transformation和Action算子
一、Transformation 1.1map 1.2filter &n...
代码星球
·
2020-09-05
sparkcore
入门
实战
Spark
Transformation
sparkcore入门到实战之(3)弹性式数据集RDD
一、RDD简介二、创建RDD 2.1由现有集合创建 2.2引用外部存储系统中的数据集  ...
代码星球
·
2020-09-05
sparkcore
入门
实战
弹性
数据
SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka
一、版本说明二、项目依赖三、整合Kafka 3.1ConsumerRecord 3.2生产者属性  ...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume
一、简介二、推送式方法 2.1配置日志收集Flume 2.2项目依赖 &...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
SparkStreaming入门到实战之(3)--Spark Streaming与流处理
一、流处理 1.1静态数据处理 1.2流处理二、SparkStreaming &nb...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
SparkStreaming入门到实战之(2)--Spark Streaming 基本操作
一、案例引入 3.1StreamingContext 3.2数据源 &n...
代码星球
·
2020-09-05
SparkStreaming
入门
实战
--Spark
Streaming
sparkcore入门到实战之(14)HBase 中加盐(Salting)之后的表如何读取
我们知道,HBase 为我们提供了hbase-mapreduce工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:ThismodulecontainsimplementationsofInputFormat,O...
代码星球
·
2020-09-05
sparkcore
入门
实战
HBase
加盐
Spark SQL入门到实战之(5)使用 Spark SQL 高效地读写 HBase
Apache Spark 和Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前Spark内置是支持很多数据源的,其中就包括了HBase,但是内置的读取数据源还是使...
代码星球
·
2020-09-05
Spark
SQL
入门
实战
使用
sparkcore入门到实战之(13)在Spark上通过BulkLoad快速将海量数据导入到Hbase
本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用BulkLoadAPI。 使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中,...
代码星球
·
2020-09-05
sparkcore
入门
实战
Spark
通过
首页
上一页
...
6
7
8
9
10
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他