51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#sklearn
Python+Sklearn实现异常检测
很多应用场景都需要能够确定样本是否属于与现有的分布,或者应该被视为不同的分布。离群检测(Outlierdetection):训练数据包含离群值,这些离群值被定义为与其他观察值相差甚远的观察值。新奇检测(Noveltydetection):训练数据没有离群点,需要观察新的样本是否包含离群点。离群检测和新颖性检测都用于异常...
开发笔记
·
2023-02-08
Python+Sklearn
实现
异常
检测
sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法
在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候,会默认把长度<2的字符抛弃,例如下面的例子:x=['ilov...
代码星球
·
2021-02-23
sklearn
中的
Countvectorizer
TfidfVectorizer
保留
sklearn 数据预处理1: StandardScaler
作用:去均值和方差归一化。且是针对每一个特征维度来做的,而不是针对样本。【注:】并不是所有的标准化都能给estimator带来好处。“Standardizationofadatasetisacommonrequirementformanymachinelearningestimators:theymightbehave...
代码星球
·
2021-02-12
sklearn
数据
预处理
StandardScaler
使用sklearn进行K_Means聚类算法
首先附上官网说明 [http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#examples-using-sklearn-cluster-kmeans]再附上一篇翻译文档 http://blog.csd...
代码星球
·
2021-02-12
使用
sklearn
进行
Means
聚类
机器学习sklearn19.0聚类算法——Kmeans算法
一、关于聚类及相似度、距离的知识点 二、k-means算法思想与流程三、sklearn中对于kmeans算法的参数四、代码示例以及应用的知识点简介(1)make_blobs:聚类数据生成器 sklearn.datasets.make_blobs(n_samples=100,n_features=2,...
代码星球
·
2021-02-12
算法
机器
学习
sklearn19.0
聚类
sklearn中SVM调参说明
之前只停留在理论上,没有实际沉下心去调参,实际去做了后,发现调参是个大工程(玄学)。于是这篇来总结一下sklearn中svm的参数说明以及调参经验。方便以后查询和回忆。1.linear核函数:K(xi,xj)=xTixjK(xi,xj)=xiTxj2.polynomial核函数:K(xi,xj)=(γxTi...
代码星球
·
2020-12-17
sklearn
SVM
调参
说明
Sklearn实现逻辑回归
LogisticRegression类的各项参数的含义classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_we...
代码星球
·
2020-12-17
Sklearn
实现
逻辑
回归
sklearn的estimator
在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator。在估计器中有有两个重要的方法是fit和transform。fit方法用于从训练集中学习模型参数transform用学习到的参数转换数据 ...
代码星球
·
2020-11-27
sklearn
estimator
Sklearn数据集与机器学习
《统计机器学习》中指出:机器学习=模型+策略+算法。其实机器学习可以表示为:Learning=Representation+Evalution+Optimization。我们就可以将这样的表示和李航老师的说法对应起来。机器学习主要是由三部分组成,即:表示(模型)、评价(策略)和优化(算法)。表示(或者称为:模型):Re...
代码星球
·
2020-11-27
Sklearn
数据
机器
学习
Sklearn与特征工程
“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需要进行一些特征处理,特征的缩放等等,满足训练数据的要求。我们将初次接触到Scikit-learn这个机器学习库的使用Scikit...
代码星球
·
2020-11-27
Sklearn
特征
工程
Sklearn学习笔记
主要记python工具包sklearn的学习内容:链接点击这里。一、Regression& Classification 1.1.GeneralizedLinearModels 1.2.LinearandQuadraticDiscriminantAnalysis 1.3.Kernelridger...
代码星球
·
2020-10-09
Sklearn
学习
笔记
Python机器学习(三十三)Sklearn 速查
Scikit-learn是一个开源Python库,它使用统一的接口实现了一系列机器学习、预处理、交叉验证和可视化算法。fromsklearnimportneighbors,datasets,preprocessingfromsklearn.model_selectionimporttrain_test_splitfro...
代码星球
·
2020-09-20
Python
机器
学习
三十三
Sklearn
Python机器学习(三十二)Sklearn 支持向量机
前面章节尝试了K均值聚类模型,准确率并不高。接下来我们尝试一种新方法:支持向量机(SVM)。支持向量机支持向量机(supportvectormachine/SVM),通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。本系列教...
代码星球
·
2020-09-20
Python
机器
学习
三十二
Sklearn
Python机器学习(三十一)Sklearn K均值聚类
到目前为止,我们已经非常深入地了解了数据集,并且把它分成了训练子集与测试子集。接下来,我们将使用聚类方法训练一个模型,然后使用该模型来预测测试子集的标签,最后评估该模型的性能。聚类(clustering)是在一组未标记的数据中,将相似的数据(点)归到同一个类别中的方法。聚类与分类的最大不同在于分类的目标事先已知,而聚类...
代码星球
·
2020-09-20
Python
机器
学习
三十一
Sklearn
Python机器学习(三十)Sklearn 预处理数据
前面章节中,我们首先加载数据,接着查看数据集的基本信息,然后可视化数据进一步查看数据集信息。接下来,我们开始处理数据,但这之前,通常需要预处理数据。大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进...
代码星球
·
2020-09-20
Python
机器
学习
三十
Sklearn
首页
上一页
1
2
3
4
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他