sklearn主题的文章列表，还有sklearn的技术要点_第1页

Python+Sklearn实现异常检测

很多应用场景都需要能够确定样本是否属于与现有的分布，或者应该被视为不同的分布。离群检测（Outlierdetection）：训练数据包含离群值，这些离群值被定义为与其他观察值相差甚远的观察值。新奇检测(Noveltydetection)：训练数据没有离群点，需要观察新的样本是否包含离群点。离群检测和新颖性检测都用于异常...

开发笔记 ·2023-02-08

sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候，会默认把长度<2的字符抛弃，例如下面的例子：x=['ilov...

代码星球 ·2021-02-23

sklearn 数据预处理1: StandardScaler

作用：去均值和方差归一化。且是针对每一个特征维度来做的，而不是针对样本。【注：】并不是所有的标准化都能给estimator带来好处。“Standardizationofadatasetisacommonrequirementformanymachinelearningestimators:theymightbehave...

代码星球 ·2021-02-12

使用sklearn进行K_Means聚类算法

首先附上官网说明 [http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#examples-using-sklearn-cluster-kmeans]再附上一篇翻译文档 http://blog.csd...

代码星球 ·2021-02-12

机器学习sklearn19.0聚类算法——Kmeans算法

一、关于聚类及相似度、距离的知识点二、k-means算法思想与流程三、sklearn中对于kmeans算法的参数四、代码示例以及应用的知识点简介（1）make_blobs：聚类数据生成器 sklearn.datasets.make_blobs(n_samples=100,n_features=2,...

代码星球 ·2021-02-12

sklearn中SVM调参说明

之前只停留在理论上，没有实际沉下心去调参，实际去做了后，发现调参是个大工程（玄学）。于是这篇来总结一下sklearn中svm的参数说明以及调参经验。方便以后查询和回忆。1.linear核函数:K(xi,xj)=xTixjK(xi,xj)=xiTxj2.polynomial核函数:K(xi,xj)=(γxTi...

代码星球 ·2020-12-17

Sklearn实现逻辑回归

LogisticRegression类的各项参数的含义classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_we...

代码星球 ·2020-12-17

sklearn的estimator

在sklearn中，估计器(estimator)是一个重要的角色，分类器和回归器都属于estimator。在估计器中有有两个重要的方法是fit和transform。fit方法用于从训练集中学习模型参数transform用学习到的参数转换数据 ...

代码星球 ·2020-11-27

Sklearn数据集与机器学习

《统计机器学习》中指出：机器学习=模型+策略+算法。其实机器学习可以表示为：Learning=Representation+Evalution+Optimization。我们就可以将这样的表示和李航老师的说法对应起来。机器学习主要是由三部分组成，即：表示(模型)、评价(策略)和优化(算法)。表示(或者称为：模型)：Re...

代码星球 ·2020-11-27

Sklearn与特征工程

“数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据，那么需要进行一些特征处理，特征的缩放等等，满足训练数据的要求。我们将初次接触到Scikit-learn这个机器学习库的使用Scikit...

代码星球 ·2020-11-27

Sklearn学习笔记

主要记python工具包sklearn的学习内容：链接点击这里。一、Regression& Classification　　1.1.GeneralizedLinearModels　　1.2.LinearandQuadraticDiscriminantAnalysis　　1.3.Kernelridger...

代码星球 ·2020-10-09

Python机器学习（三十三）Sklearn 速查

Scikit-learn是一个开源Python库，它使用统一的接口实现了一系列机器学习、预处理、交叉验证和可视化算法。fromsklearnimportneighbors,datasets,preprocessingfromsklearn.model_selectionimporttrain_test_splitfro...

代码星球 ·2020-09-20

Python机器学习（三十二）Sklearn 支持向量机

前面章节尝试了K均值聚类模型，准确率并不高。接下来我们尝试一种新方法：支持向量机(SVM)。支持向量机支持向量机(supportvectormachine/SVM)，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。本系列教...

代码星球 ·2020-09-20

Python机器学习（三十一）Sklearn K均值聚类

到目前为止，我们已经非常深入地了解了数据集，并且把它分成了训练子集与测试子集。接下来，我们将使用聚类方法训练一个模型，然后使用该模型来预测测试子集的标签，最后评估该模型的性能。聚类(clustering)是在一组未标记的数据中，将相似的数据（点）归到同一个类别中的方法。聚类与分类的最大不同在于分类的目标事先已知，而聚类...

代码星球 ·2020-09-20

Python机器学习（三十）Sklearn 预处理数据

前面章节中，我们首先加载数据，接着查看数据集的基本信息，然后可视化数据进一步查看数据集信息。接下来，我们开始处理数据，但这之前，通常需要预处理数据。大型数据分析项目中，数据来源不同，量纲及量纲单位不同，为了让它们具备可比性，需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进...

代码星球 ·2020-09-20