#机器学习

【机器学习】判别模型和生成模型

 判别式模型(discriminativemodel)产生式模型(generativemodel) 特点寻找不同类别之间的最优分类面,反映的是异类数据之间的差异对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度区别(假定输入x, 类别标签y)估计的是条件概率分布(...

【机器学习】主成分分析PCA(Principal components analysis)

真实的训练数据总是存在各种各样的问题:  1、比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。  2、拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间...

【机器学习】粗糙集属性约简—Attribute Reduction

  RoughSets算法是一种比较新颖的算法,粗糙集理论对于数据的挖掘方面提供了一个新的概念和研究方法。本篇文章我不会去介绍令人厌烦的学术概念,就是简单的聊聊RoughSets算法的作用,直观上做一个了解。此算法的应用场景是,面对一个庞大的数据库系统,如何从里面分析出有效的信息,如果一database中有几十个字段,...

【机器学习】粗糙集(Rough Set Approach)

粗糙集理论是一种研究不精确,不确定性知识的数学工具。粗糙集理论的知识表达方式一般采用信息表或称为信息系统的形式,它可以表现为四元有序组K=(U,A,V,P)。其中U为对象的全体,即论域;A是属性全体;V是属性的值域;P为一个信息函数,反映了对象x在K中的完全信息。粗糙集的思想为:  一种类别对应一个概念(类别可以用集合...

【机器学习】随机森林(Random Forest)

随机森林是一个最近比较火的算法它有很多的优点:在数据集上表现良好在当前的很多数据集上,相对其他算法有着很大的优势它能够处理很高维度(feature很多)的数据,并且不用做特征选择在训练完后,它能够给出哪些feature比较重要在创建随机森林的时候,对generlizationerror使用的是无偏估计训练速度快在训练过...

【机器学习】K近邻算法——多分类问题

  给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类。KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常...

【机器学习】Softmax 和Logistic Regression回归Sigmod

  在logistic回归中,我们的训练集由  个已标记的样本构成: ,其中输入特征。(我们对符号的约定如下:特征向量  的维度为 ,其中  对应截距项。)由于logistic回归是针对二分类问题的,因此类标记 。假设函数(hyp...

【机器学习】K-Means算法

   K-Means算法是一种clusteranalysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可以看出来有四个点群,但是我们怎么通过计算机程序找出这几个点群来呢?于是就出现了...
代码星球 ·2020-04-06

大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...

机器学习实战之回归

转自:https://www.cnblogs.com/zy230530/p/6942458.html一,引言    前面讲到的基本都是分类问题,分类问题的目标变量是标称型数据,或者离散型数据。而回归的目标变量为连续型,也即是回归对连续型变量做出预测,最直接的办法是依据输入写出一个目标值的计算公式,这样,对于给定的输入,...
代码星球 ·2020-04-04

第一章 机器学习基础

机器学习的主要任务监督学习  对于分类问题,机器学习的主要任务是将实例数据划分到合适的分类中,机器学习的另一项任务是回归,它主要用于预测数值型数据(数据拟合曲线)。  分类与回归属于监督学习,之所以称之为监督学习,是因为这类算法知道要预测什么,即目标变量的分类信息无监督学习  对于监督学习,此时数据没有类别信息,也不会...

python机器学习模型参数调优

#机器学习模型选择与参数调优#三种集成学习算法-GBDT/XGBoost/lightGBM#1-1GBDT算法:梯度决策树,加强型模型,构建多个决策树进行合并importnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportensemblefromsklearnim...

sklearn中机器学习算法评价指标

#机器学习分类算法的评价指标#二分类问题的算法评价指标importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdfromsklearnimportdatasetsd=datasets.load_digits()x=d.datay=d.target.copy()...

机器学习中的贝叶斯方法---当后验分布无法计算时如何求得预测模型?

在前面两篇文章中:机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测(1)机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测(2) 我们以抛硬币作为示例,介绍了如何使用概率论的方法来构造机器学习中的预测模型---通过概率论理论来求...
首页上一页...2324252627...下一页尾页