机器学习主题的文章列表，还有机器学习的技术要点_第25页

【机器学习】判别模型和生成模型

判别式模型（discriminativemodel）产生式模型（generativemodel）特点寻找不同类别之间的最优分类面，反映的是异类数据之间的差异对后验概率建模，从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度区别(假定输入x, 类别标签y)估计的是条件概率分布(...

代码星球 ·2020-04-06

【机器学习】主成分分析PCA（Principal components analysis）

真实的训练数据总是存在各种各样的问题：　　1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。　　2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间...

代码星球 ·2020-04-06

【机器学习】粗糙集属性约简—Attribute Reduction

　　RoughSets算法是一种比较新颖的算法，粗糙集理论对于数据的挖掘方面提供了一个新的概念和研究方法。本篇文章我不会去介绍令人厌烦的学术概念，就是简单的聊聊RoughSets算法的作用，直观上做一个了解。此算法的应用场景是，面对一个庞大的数据库系统，如何从里面分析出有效的信息，如果一database中有几十个字段，...

代码星球 ·2020-04-06

【机器学习】粗糙集（Rough Set Approach）

粗糙集理论是一种研究不精确，不确定性知识的数学工具。粗糙集理论的知识表达方式一般采用信息表或称为信息系统的形式，它可以表现为四元有序组K=（U，A，V，P）。其中U为对象的全体，即论域；A是属性全体；V是属性的值域；P为一个信息函数，反映了对象x在K中的完全信息。粗糙集的思想为：　　一种类别对应一个概念（类别可以用集合...

代码星球 ·2020-04-06

【机器学习】随机森林(Random Forest)

随机森林是一个最近比较火的算法它有很多的优点：在数据集上表现良好在当前的很多数据集上，相对其他算法有着很大的优势它能够处理很高维度（feature很多）的数据，并且不用做特征选择在训练完后，它能够给出哪些feature比较重要在创建随机森林的时候，对generlizationerror使用的是无偏估计训练速度快在训练过...

代码星球 ·2020-04-06

【机器学习】K近邻算法——多分类问题

　　给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该类输入实例分为这个类。KNN是通过测量不同特征值之间的距离进行分类。它的的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常...

代码星球 ·2020-04-06

【机器学习】Softmax 和Logistic Regression回归Sigmod

　　在logistic回归中，我们的训练集由个已标记的样本构成：，其中输入特征。（我们对符号的约定如下：特征向量的维度为，其中对应截距项。）由于logistic回归是针对二分类问题的，因此类标记。假设函数(hyp...

代码星球 ·2020-04-06

【机器学习】K-Means算法

　　K-Means算法是一种clusteranalysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到，在图的左边有一些点，我们用肉眼可以看出来有四个点群，但是我们怎么通过计算机程序找出这几个点群来呢？于是就出现了...

代码星球 ·2020-04-06

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...

代码星球 ·2020-04-05

机器学习实战之回归

转自：https://www.cnblogs.com/zy230530/p/6942458.html一，引言　　　　前面讲到的基本都是分类问题，分类问题的目标变量是标称型数据，或者离散型数据。而回归的目标变量为连续型，也即是回归对连续型变量做出预测，最直接的办法是依据输入写出一个目标值的计算公式，这样，对于给定的输入，...

代码星球 ·2020-04-04

第一章机器学习基础

机器学习的主要任务监督学习　　对于分类问题，机器学习的主要任务是将实例数据划分到合适的分类中，机器学习的另一项任务是回归，它主要用于预测数值型数据（数据拟合曲线）。　　分类与回归属于监督学习，之所以称之为监督学习，是因为这类算法知道要预测什么，即目标变量的分类信息无监督学习　　对于监督学习，此时数据没有类别信息，也不会...

代码星球 ·2020-04-04

python机器学习技术报告写作

...

代码星球 ·2020-04-04

python机器学习模型参数调优

#机器学习模型选择与参数调优#三种集成学习算法-GBDT/XGBoost/lightGBM#1-1GBDT算法：梯度决策树，加强型模型，构建多个决策树进行合并importnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportensemblefromsklearnim...

代码星球 ·2020-04-04

sklearn中机器学习算法评价指标

#机器学习分类算法的评价指标#二分类问题的算法评价指标importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdfromsklearnimportdatasetsd=datasets.load_digits()x=d.datay=d.target.copy()...

代码星球 ·2020-04-04

机器学习中的贝叶斯方法---当后验分布无法计算时如何求得预测模型？

在前面两篇文章中：机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测（1）机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测（2）我们以抛硬币作为示例，介绍了如何使用概率论的方法来构造机器学习中的预测模型---通过概率论理论来求...

代码星球 ·2020-04-04

【机器学习】判别模型和生成模型

【机器学习】主成分分析PCA（Principal components analysis）

【机器学习】粗糙集属性约简—Attribute Reduction

【机器学习】粗糙集（Rough Set Approach）

【机器学习】随机森林(Random Forest)

【机器学习】K近邻算法——多分类问题

【机器学习】Softmax 和Logistic Regression回归Sigmod

【机器学习】K-Means算法

大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

机器学习实战之回归

第一章 机器学习基础

python机器学习技术报告写作

python机器学习模型参数调优

sklearn中机器学习算法评价指标

机器学习中的贝叶斯方法---当后验分布无法计算时如何求得预测模型？

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

第一章机器学习基础