#Sklearn

Python机器学习(二十九)Sklearn 可视化数据:主成分分析(PCA)

主成分分析(PCA)是一种常用于减少大数据集维数的降维方法,把大变量集转换为仍包含大变量集中大部分信息的较小变量集。减少数据集的变量数量,自然是以牺牲精度为代价的,降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化,并且使机器学习算法更容易和更快地分析数据,而不需处理无关变量。总而言之,主成分分析(P...

Python机器学习(二十八)Sklearn 使用matplotlib可视化数据

digits是一个手写数字的数据集,我们可以使用Python的数据可视化库,比如matplotlib,来查看这些手写数字图像。示例显示digits.images中的手写数字图像。fromsklearnimportdatasets#加载`digits`数据集digits=datasets.load_digits()#导入...

Python机器学习(二十七)Sklearn 数据集基本信息

前面章节中,我们加载了SciKit-Learn自带的数据集digits,可以通过以下语句查看数据集中包含哪些主要内容:digits.keys()输出dict_keys(['data','target','target_names','images','DESCR'])data 样本数据target ...

Python机器学习(二十六)Sklearn 加载数据集

机器学习是计算机科学的一个分支,研究的是无需人类干预,能够自己学习的算法。与TensorFlow不同,Scikit-learn(sklearn)的定位是通用机器学习库,而TensorFlow(tf)的定位主要是深度学习库。数据科学中的第一步通常都是加载数据,我们首先学习怎么使用SciKit-Learn来加载数据集。数据...

随机打乱工具sklearn.utils.shuffle,将原有的序列打乱,返回一个全新的错乱顺序的值

ShufflearraysorsparsematricesinaconsistentwayThisisaconveniencealiasto resample(*arrays, replace=False) todorandompermutationsofthecollections.Pa...

关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化...

关于 sklearn.decomposition.KernelPCA的简单介绍

fromsklearnimportdecompositionimportnumpyasnpA1_mean=[1,1]A1_cov=[[2,.99],[1,1]]A1=np.random.multivariate_normal(A1_mean,A1_cov,50)A2_mean=[5,5]A2_cov=[[2,.99],...

(转)Python- sklearn之最小二乘法

最小二乘法:https://baike.baidu.com/item/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95/2522346?fr=aladdin 原文链接:https://blog.csdn.net/sinat_23338865/article/detai...
代码星球 ·2020-08-09

sklearn.feature_extraction.DictVectorizer

sklearn.feature_extraction.DictVectorizer:将字典组成的列表转换成向量。(将特征与值的映射字典组成的列表转换成向量) 1. 特征矩阵行代表数据,列代表特征,0表示该数据没有该特征fromsklearn.feature_extractionimportDictV...

sklearn学习笔记之简单线性回归

线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误差之后,方程的解法就存在改变,一般使用最小二乘法计算。使用sklearn.liner_model.LinearRegression进行线性回归sklearn对DataMining的各类算法已经有了较好的封装,基本可以使用fit、predict、score来训练...

sklearn.learning_curve

学习曲线函数:fromsklearn.learning_curveimportlearning_curve调用格式:learning_curve(estimator,X,y,train_sizes=array([0.1,0.325,0.55,0.775,1.]),cv=None,scoring=None,exploit...
代码星球 ·2020-07-22

sklearn中的train_test_split (随机划分训练集和测试集)

官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html fromsklearn.model_selectionimporttrain_test_split ...

sklearn preprocessing (预处理)

预处理的几种方法:标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。知识回顾:p-范数:先算绝对值的p次方,再求和,再开p次方。数据标准化:尽量将数据转化为均值为0,方差为1的数据,形如标准正态分布(高斯分布)。标准化(Standardization)公式为:(X-X_mean)/X_std计算时对每个...
代码星球 ·2020-07-22

sklearn.linear_model.LinearRegression

官网:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.htmlclasssklearn.linear_model.LinearRegression(fit_intercept=True,norm...

sklearn dataset 模块学习

sklearn.datasets官网:http://scikit-learn.org/stable/datasets/sklearn.datasets模块主要提供一些导入、在线下载及本地生成数据集的方法,可以通过dir或help命令查看,会发现主要有三种形式:load_<dataset_name>、fetc...
代码星球 ·2020-07-22
首页上一页1234下一页尾页