#sklearn

Python+Sklearn实现异常检测

很多应用场景都需要能够确定样本是否属于与现有的分布,或者应该被视为不同的分布。离群检测(Outlierdetection):训练数据包含离群值,这些离群值被定义为与其他观察值相差甚远的观察值。新奇检测(Noveltydetection):训练数据没有离群点,需要观察新的样本是否包含离群点。离群检测和新颖性检测都用于异常...

sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候,会默认把长度<2的字符抛弃,例如下面的例子:x=['ilov...

sklearn 数据预处理1: StandardScaler

作用:去均值和方差归一化。且是针对每一个特征维度来做的,而不是针对样本。【注:】并不是所有的标准化都能给estimator带来好处。“Standardizationofadatasetisacommonrequirementformanymachinelearningestimators:theymightbehave...

使用sklearn进行K_Means聚类算法

首先附上官网说明 [http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#examples-using-sklearn-cluster-kmeans]再附上一篇翻译文档 http://blog.csd...

机器学习sklearn19.0聚类算法——Kmeans算法

一、关于聚类及相似度、距离的知识点 二、k-means算法思想与流程三、sklearn中对于kmeans算法的参数四、代码示例以及应用的知识点简介(1)make_blobs:聚类数据生成器 sklearn.datasets.make_blobs(n_samples=100,n_features=2,...

sklearn中SVM调参说明

之前只停留在理论上,没有实际沉下心去调参,实际去做了后,发现调参是个大工程(玄学)。于是这篇来总结一下sklearn中svm的参数说明以及调参经验。方便以后查询和回忆。1.linear核函数:K(xi,xj)=xTixjK(xi,xj)=xiTxj2.polynomial核函数:K(xi,xj)=(γxTi...
代码星球 代码星球·2020-12-17

Sklearn实现逻辑回归

LogisticRegression类的各项参数的含义classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_we...
代码星球 代码星球·2020-12-17

sklearn的estimator

在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator。在估计器中有有两个重要的方法是fit和transform。fit方法用于从训练集中学习模型参数transform用学习到的参数转换数据 ...
代码星球 代码星球·2020-11-27

Sklearn数据集与机器学习

《统计机器学习》中指出:机器学习=模型+策略+算法。其实机器学习可以表示为:Learning=Representation+Evalution+Optimization。我们就可以将这样的表示和李航老师的说法对应起来。机器学习主要是由三部分组成,即:表示(模型)、评价(策略)和优化(算法)。表示(或者称为:模型):Re...
代码星球 代码星球·2020-11-27

Sklearn与特征工程

“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需要进行一些特征处理,特征的缩放等等,满足训练数据的要求。我们将初次接触到Scikit-learn这个机器学习库的使用Scikit...
代码星球 代码星球·2020-11-27

Sklearn学习笔记

主要记python工具包sklearn的学习内容:链接点击这里。一、Regression& Classification  1.1.GeneralizedLinearModels  1.2.LinearandQuadraticDiscriminantAnalysis  1.3.Kernelridger...
代码星球 代码星球·2020-10-09

Python机器学习(三十三)Sklearn 速查

Scikit-learn是一个开源Python库,它使用统一的接口实现了一系列机器学习、预处理、交叉验证和可视化算法。fromsklearnimportneighbors,datasets,preprocessingfromsklearn.model_selectionimporttrain_test_splitfro...

Python机器学习(三十二)Sklearn 支持向量机

前面章节尝试了K均值聚类模型,准确率并不高。接下来我们尝试一种新方法:支持向量机(SVM)。支持向量机支持向量机(supportvectormachine/SVM),通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。本系列教...

Python机器学习(三十一)Sklearn K均值聚类

到目前为止,我们已经非常深入地了解了数据集,并且把它分成了训练子集与测试子集。接下来,我们将使用聚类方法训练一个模型,然后使用该模型来预测测试子集的标签,最后评估该模型的性能。聚类(clustering)是在一组未标记的数据中,将相似的数据(点)归到同一个类别中的方法。聚类与分类的最大不同在于分类的目标事先已知,而聚类...

Python机器学习(三十)Sklearn 预处理数据

前面章节中,我们首先加载数据,接着查看数据集的基本信息,然后可视化数据进一步查看数据集信息。接下来,我们开始处理数据,但这之前,通常需要预处理数据。大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进...
首页上一页1234下一页尾页