#park

spark机器学习从0到1决策树(六)

 决策树及其集合是分类和回归的机器学习任务的流行方法。决策树被广泛使用,因为它们易于解释,处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互。诸如随机森林和增强的树集合算法是分类和回归任务的最佳表现者。决策树(decisiontree)是一种基本的分类与回归方法,这里主要介绍用于分...

spark机器学习从0到1支持向量机SVM(五)

  分类旨在将项目分为不同类别。最常见的分类类型是二元分类,其中有两类,通常分别为正数和负数。如果有两个以上的类别,则称为多类分类。spark.mllib支持两种线性分类方法:线性支持向量机(SVM)和逻辑回归。线性SVM仅支持二进制分类,而逻辑回归支持二进制和多类分类问题。对于这两种方法,spar...

spark机器学习从0到1逻辑斯蒂回归之(四)

  逻辑斯蒂回归逻辑斯蒂回归(logisticregression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。logistic回归的因变量可以是二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中...

spark机器学习从0到1基本的统计工具之(三)

  给定一个数据集,数据分析师一般会先观察一下数据集的基本情况,称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值,包括位置或集中趋势(比如算术平均值、中位数、众数和四分位均值),展型(比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等),统计离差,分布的形状,依赖性等。除此之外,sp...

spark机器学习从0到1基本数据类型之(二)

          MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型。底层线性代数操作由Breeze提供。在监督学习中使用的训练示例在...

spark机器学习从0到1介绍入门之(一)

 一、什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途...

sparkcore入门到实战之(4)Spark_Transformation和Action算子

​一、Transformation        1.1map        1.2filter     &n...

sparkcore入门到实战之(3)弹性式数据集RDD

 ​一、RDD简介二、创建RDD        2.1由现有集合创建        2.2引用外部存储系统中的数据集   ...

SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka

​一、版本说明二、项目依赖三、整合Kafka        3.1ConsumerRecord        3.2生产者属性   ...

SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume

​一、简介二、推送式方法        2.1配置日志收集Flume        2.2项目依赖     &...

SparkStreaming入门到实战之(3)--Spark Streaming与流处理

​一、流处理        1.1静态数据处理        1.2流处理二、SparkStreaming    &nb...

SparkStreaming入门到实战之(2)--Spark Streaming 基本操作

​一、案例引入        3.1StreamingContext        3.2数据源     &n...

sparkcore入门到实战之(14)HBase 中加盐(Salting)之后的表如何读取

我们知道,HBase 为我们提供了hbase-mapreduce工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:ThismodulecontainsimplementationsofInputFormat,O...

Spark SQL入门到实战之(5)使用 Spark SQL 高效地读写 HBase

Apache Spark 和Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前Spark内置是支持很多数据源的,其中就包括了HBase,但是内置的读取数据源还是使...

sparkcore入门到实战之(13)在Spark上通过BulkLoad快速将海量数据导入到Hbase

本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用BulkLoadAPI。  使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中,...
首页上一页...678910...下一页尾页