从0到1主题的文章列表，还有从0到1的技术要点_第2页

spark机器学习从0到1主成分分析-PCA (八）

PCA主成分分析（PrincipalComponentAnalysis）是指将多个变量通过线性变换以选出较少数重要变量的一种多元统计分析方法，又称为主成分分析。在实际应用场合中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个应用场合的某些信息。主成分分析是设法将原...

代码星球 ·2020-09-19

TensorFlow从0到1之TensorFlow实现多元线性回归（11）

在 TensorFlow 实现简单线性回归的基础上，可通过在权重和占位符的声明中稍作修改来对相同的数据进行多元线性回归。在多元线性回归的情况下，由于每个特征具有不同的值范围，归一化变得至关重要。这里是波士顿房价数据集的多重线性回归的代码，使用13个输入特征。波士顿房价数据集可从http://lib....

代码星球 ·2020-09-19

TensorFlow从0到1之TensorFlow实现简单线性回归（10）

本节将针对波士顿房价数据集的房间数量（RM）采用简单线性回归，目标是预测在最后一列（MEDV）给出的房价。波士顿房价数据集可从http://lib.stat.cmu.edu/datasets/boston处获取。本小节直接从 TensorFlow contrib数据集加载数据。使用随机梯度下降优化器...

代码星球 ·2020-09-19

TensorFlow从0到1之TensorFlow csv文件读取数据（9）

大多数人了解Pandas及其在处理大数据文件方面的实用性。TensorFlow 提供了读取这种文件的方法。前面章节中，介绍了如何在TensorFlow中读取文件，本节将重点介绍如何从CSV文件中读取数据并在训练之前对数据进行预处理。本节将采用哈里森和鲁宾菲尔德于1978年收集的波士顿房价数据集（http://...

代码星球 ·2020-09-19

TensorFlow从0到1之TensorFlow优化器（8）

高中数学学过，函数在一阶导数为零的地方达到其最大值和最小值。梯度下降算法基于相同的原理，即调整系数（权重和偏置）使损失函数的梯度下降。在回归中，使用梯度下降来优化损失函数并获得系数。本节将介绍如何使用 TensorFlow 的梯度下降优化器及其变体。按照损失函数的负梯度成比例地对系数（W和b）进行更...

代码星球 ·2020-09-19

TensorFlow从0到1之TensorFlow损失函数（7）

正如前面所讨论的，在回归中定义了损失函数或目标函数，其目的是找到使损失最小化的系数。本节将介绍如何在 TensorFlow 中定义损失函数，并根据问题选择合适的损失函数。声明一个损失函数需要将系数定义为变量，将数据集定义为占位符。可以有一个常学习率或变化的学习率和正则化常数。在下面的代码中，设m是样...

代码星球 ·2020-09-19

TensorFlow从0到1之回归算法（6）

回归是数学建模、分类和预测中最古老但功能非常强大的工具之一。回归在工程、物理学、生物学、金融、社会科学等各个领域都有应用，是数据科学家常用的基本工具。回归通常是机器学习中使用的第一个算法。通过学习因变量和自变量之间的关系实现对数据的预测。例如，对房价估计时，需要确定房屋面积（自变量）与其价格（因变量）之间的关系，可以利...

代码星球 ·2020-09-19

spark机器学习从0到1奇异值分解-SVD (七）

降维（DimensionalityReduction）是机器学习中的一种重要的特征处理手段，它可以减少计算过程中考虑到的随机变量（即特征）的个数，其被广泛应用于各种机器学习问题中，用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下，得到一组描述原数据的，低维度的隐式特征（或...

代码星球 ·2020-09-05

spark机器学习从0到1决策树(六）

决策树及其集合是分类和回归的机器学习任务的流行方法。决策树被广泛使用，因为它们易于解释，处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。诸如随机森林和增强的树集合算法是分类和回归任务的最佳表现者。决策树（decisiontree）是一种基本的分类与回归方法，这里主要介绍用于分...

代码星球 ·2020-09-05

spark机器学习从0到1支持向量机SVM(五）

分类旨在将项目分为不同类别。最常见的分类类型是二元分类，其中有两类，通常分别为正数和负数。如果有两个以上的类别，则称为多类分类。spark.mllib支持两种线性分类方法：线性支持向量机（SVM）和逻辑回归。线性SVM仅支持二进制分类，而逻辑回归支持二进制和多类分类问题。对于这两种方法，spar...

代码星球 ·2020-09-05

spark机器学习从0到1逻辑斯蒂回归之(四）

逻辑斯蒂回归逻辑斯蒂回归（logisticregression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中...

代码星球 ·2020-09-05

spark机器学习从0到1基本的统计工具之(三）

给定一个数据集，数据分析师一般会先观察一下数据集的基本情况，称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值，包括位置或集中趋势（比如算术平均值、中位数、众数和四分位均值），展型（比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等），统计离差，分布的形状，依赖性等。除此之外，sp...

代码星球 ·2020-09-05

spark机器学习从0到1基本数据类型之(二）

MLlib支持存储在单个机器上的局部向量和矩阵，以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型。底层线性代数操作由Breeze提供。在监督学习中使用的训练示例在...

代码星球 ·2020-09-05

spark机器学习从0到1介绍入门之(一）

一、什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途...

代码星球 ·2020-09-05

flink入门到实战（6）flink批处理从0到1

介绍：flink提供了大量的已经实现好的source方法，你也可以自定义source通过实现sourceFunction接口来自定义无并行度的source，或者你也可以通过实现ParallelSourceFunction 接口or继承RichParallelSourceFunction 来自定义有并...

代码星球 ·2020-09-05