Spark主题的文章列表，还有Spark的技术要点_第8页

spark机器学习从0到1决策树(六）

决策树及其集合是分类和回归的机器学习任务的流行方法。决策树被广泛使用，因为它们易于解释，处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。诸如随机森林和增强的树集合算法是分类和回归任务的最佳表现者。决策树（decisiontree）是一种基本的分类与回归方法，这里主要介绍用于分...

代码星球 ·2020-09-05

spark机器学习从0到1支持向量机SVM(五）

分类旨在将项目分为不同类别。最常见的分类类型是二元分类，其中有两类，通常分别为正数和负数。如果有两个以上的类别，则称为多类分类。spark.mllib支持两种线性分类方法：线性支持向量机（SVM）和逻辑回归。线性SVM仅支持二进制分类，而逻辑回归支持二进制和多类分类问题。对于这两种方法，spar...

代码星球 ·2020-09-05

spark机器学习从0到1逻辑斯蒂回归之(四）

逻辑斯蒂回归逻辑斯蒂回归（logisticregression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中...

代码星球 ·2020-09-05

spark机器学习从0到1基本的统计工具之(三）

给定一个数据集，数据分析师一般会先观察一下数据集的基本情况，称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值，包括位置或集中趋势（比如算术平均值、中位数、众数和四分位均值），展型（比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等），统计离差，分布的形状，依赖性等。除此之外，sp...

代码星球 ·2020-09-05

spark机器学习从0到1基本数据类型之(二）

MLlib支持存储在单个机器上的局部向量和矩阵，以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型。底层线性代数操作由Breeze提供。在监督学习中使用的训练示例在...

代码星球 ·2020-09-05

spark机器学习从0到1介绍入门之(一）

一、什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途...

代码星球 ·2020-09-05

sparkcore入门到实战之（4）Spark_Transformation和Action算子

一、Transformation 1.1map 1.2filter &n...

代码星球 ·2020-09-05

sparkcore入门到实战之（3）弹性式数据集RDD

一、RDD简介二、创建RDD 2.1由现有集合创建 2.2引用外部存储系统中的数据集 ...

代码星球 ·2020-09-05

SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka

一、版本说明二、项目依赖三、整合Kafka 3.1ConsumerRecord 3.2生产者属性 ...

代码星球 ·2020-09-05

SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume

一、简介二、推送式方法 2.1配置日志收集Flume 2.2项目依赖 &...

代码星球 ·2020-09-05

SparkStreaming入门到实战之(3)--Spark Streaming与流处理

一、流处理 1.1静态数据处理 1.2流处理二、SparkStreaming &nb...

代码星球 ·2020-09-05

SparkStreaming入门到实战之(2)--Spark Streaming 基本操作

一、案例引入 3.1StreamingContext 3.2数据源 &n...

代码星球 ·2020-09-05

sparkcore入门到实战之（14）HBase 中加盐（Salting）之后的表如何读取

我们知道，HBase 为我们提供了hbase-mapreduce工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下：ThismodulecontainsimplementationsofInputFormat,O...

代码星球 ·2020-09-05

Spark SQL入门到实战之（5）使用 Spark SQL 高效地读写 HBase

Apache Spark 和Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据，而目前Spark内置是支持很多数据源的，其中就包括了HBase，但是内置的读取数据源还是使...

代码星球 ·2020-09-05

sparkcore入门到实战之（13）在Spark上通过BulkLoad快速将海量数据导入到Hbase

本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用BulkLoadAPI。使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中，...

代码星球 ·2020-09-05