Sklearn主题的文章列表，还有Sklearn的技术要点_第2页

Python机器学习（二十九）Sklearn 可视化数据:主成分分析(PCA)

主成分分析(PCA)是一种常用于减少大数据集维数的降维方法，把大变量集转换为仍包含大变量集中大部分信息的较小变量集。减少数据集的变量数量，自然是以牺牲精度为代价的，降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化，并且使机器学习算法更容易和更快地分析数据，而不需处理无关变量。总而言之，主成分分析(P...

代码星球 ·2020-09-20

Python机器学习（二十八）Sklearn 使用matplotlib可视化数据

digits是一个手写数字的数据集，我们可以使用Python的数据可视化库，比如matplotlib，来查看这些手写数字图像。示例显示digits.images中的手写数字图像。fromsklearnimportdatasets#加载`digits`数据集digits=datasets.load_digits()#导入...

代码星球 ·2020-09-20

Python机器学习（二十七）Sklearn 数据集基本信息

前面章节中，我们加载了SciKit-Learn自带的数据集digits，可以通过以下语句查看数据集中包含哪些主要内容：digits.keys()输出dict_keys(['data','target','target_names','images','DESCR']）data 样本数据target ...

代码星球 ·2020-09-20

Python机器学习（二十六）Sklearn 加载数据集

机器学习是计算机科学的一个分支，研究的是无需人类干预，能够自己学习的算法。与TensorFlow不同，Scikit-learn(sklearn)的定位是通用机器学习库，而TensorFlow(tf)的定位主要是深度学习库。数据科学中的第一步通常都是加载数据，我们首先学习怎么使用SciKit-Learn来加载数据集。数据...

代码星球 ·2020-09-20

随机打乱工具sklearn.utils.shuffle，将原有的序列打乱，返回一个全新的错乱顺序的值

ShufflearraysorsparsematricesinaconsistentwayThisisaconveniencealiasto resample(*arrays, replace=False) todorandompermutationsofthecollections.Pa...

代码星球 ·2020-08-15

关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化...

代码星球 ·2020-08-15

关于 sklearn.decomposition.KernelPCA的简单介绍

fromsklearnimportdecompositionimportnumpyasnpA1_mean=[1,1]A1_cov=[[2,.99],[1,1]]A1=np.random.multivariate_normal(A1_mean,A1_cov,50)A2_mean=[5,5]A2_cov=[[2,.99],...

代码星球 ·2020-08-15

(转)Python- sklearn之最小二乘法

最小二乘法：https://baike.baidu.com/item/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95/2522346?fr=aladdin 原文链接：https://blog.csdn.net/sinat_23338865/article/detai...

代码星球 ·2020-08-09

sklearn.feature_extraction.DictVectorizer

sklearn.feature_extraction.DictVectorizer：将字典组成的列表转换成向量。(将特征与值的映射字典组成的列表转换成向量) 1. 特征矩阵行代表数据，列代表特征，0表示该数据没有该特征fromsklearn.feature_extractionimportDictV...

代码星球 ·2020-07-22

sklearn学习笔记之简单线性回归

线性回归的思想其实就是解一组方程，得到回归函数，不过在出现误差之后，方程的解法就存在改变，一般使用最小二乘法计算。使用sklearn.liner_model.LinearRegression进行线性回归sklearn对DataMining的各类算法已经有了较好的封装，基本可以使用fit、predict、score来训练...

代码星球 ·2020-07-22

sklearn.learning_curve

学习曲线函数：fromsklearn.learning_curveimportlearning_curve调用格式：learning_curve(estimator,X,y,train_sizes=array([0.1,0.325,0.55,0.775,1.]),cv=None,scoring=None,exploit...

代码星球 ·2020-07-22

sklearn中的train_test_split （随机划分训练集和测试集）

官方文档：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html fromsklearn.model_selectionimporttrain_test_split ...

代码星球 ·2020-07-22

sklearn preprocessing （预处理）

预处理的几种方法：标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。知识回顾：p-范数：先算绝对值的p次方，再求和，再开p次方。数据标准化：尽量将数据转化为均值为0，方差为1的数据，形如标准正态分布（高斯分布）。标准化（Standardization）公式为：(X-X_mean)/X_std计算时对每个...

代码星球 ·2020-07-22

sklearn.linear_model.LinearRegression

官网：http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.htmlclasssklearn.linear_model.LinearRegression(fit_intercept=True,norm...

代码星球 ·2020-07-22

sklearn dataset 模块学习

sklearn.datasets官网：http://scikit-learn.org/stable/datasets/sklearn.datasets模块主要提供一些导入、在线下载及本地生成数据集的方法，可以通过dir或help命令查看，会发现主要有三种形式：load_<dataset_name>、fetc...

代码星球 ·2020-07-22