#机器学习

Python机器学习(十一)线性回归算法

回归分析(RegressionAnalysis)是统计学的数据分析方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测其它变量的变化情况。线性回归算法(LinearRegression)的建模过程就是使用数据点来寻找最佳拟合线。公式,y=mx+c,其中y是因变量,x是自变量,...

Python机器学习(九)简单神经网络

 深度神经网络算法,是基于神经网络算法的一种拓展,其层数更深,达到多层,本文以简单神经网络为例,利用梯度下降算法进行反向更新来训练神经网络权重和偏向参数,文章最后,基于Python 库实现了一个简单神经网络算法程序,并对异或运算和0-9字符集进行预测。  利用如下图像结构,通过训练集对其参数进行训练,当有新的...

Python机器学习(九十七)Pandas 绘图

Pandas的另一个优点是与Matplotlib的集成,可以直接绘制DataFrame和Series。注意:如没有安装Matplotlib,需首先安装:pipinstallmatplotlib。importmatplotlib.pyplotaspltplt.rcParams.update({'font.size':20...

Python机器学习(九十六)Pandas apply函数

与Python中的列表类似,可以使用for循环遍历DataFrame或Series,但是这样做(尤其是在大型数据集上)非常慢。Pandas中提供了一个高效的替代方案:apply()方法。语法DataFrame.apply(func)Series.apply(func)func –要对数据集中所有元...

Python机器学习(九十五)Pandas 有条件访问

有时需要根据条件,访问DataFrame中的数据。例如,找出电影数据集中,某个导演的电影:#加载数据movies_df=pd.read_csv("IMDB-Movie-Data.csv",index_col="Title")movies_df.columns=['rank','genre','description',...

Python机器学习(九十四)Pandas 访问行数据

访问行数据,有两个方法:.loc –使用索引名定位.iloc –使用索引序号定位示例中的数据以电影名作为索引:#加载数据movies_df=pd.read_csv("IMDB-Movie-Data.csv",index_col="Title")movies_df.column...

Python机器学习(九十三)Pandas 访问列数据

访问DataFrame中的Series,可以使用DataFrame['列名']方式。#加载数据movies_df=pd.read_csv("IMDB-Movie-Data.csv",index_col="Title")movies_df.columns=['rank','genre','description','di...

Python机器学习(九十二)Pandas 统计

在整个DataFrame上使用describe(),我们可以得到一个统计结果:importpandasaspd#加载数据movies_df=pd.read_csv("IMDB-Movie-Data.csv",index_col="Title")movies_df.columns=['rank','genre','des...

Python机器学习(九十一)Pandas 填充(Imputation)空值

除了删除空值,还有一种处理空值的方法是填充(Imputation)。让我们看看在revenue_millions列中填充缺失的值。首先,将该列提取到变量中:revenue=movies_df['revenue_millions']使用DataFrame['列名']可以获取1列数据,即一个Series。可以使用head查...

Python机器学习(九十)Pandas 去除null值

数据集中通常会包含null值或空值,对于空值的处理有2种方式:删除带有null的行或列用非空值填充null项要处理数据集中的null值,首先要找出DataFrame中的哪些单元格是空的:movies_df.isnull()输出rankgenredescriptiondirectoractorsyearruntimera...

Python机器学习(八十九)Pandas 整理列名

关于数据集的列名,通常建议最好使用小写字母,删除特殊字符,并用下划线替换空格。有时数据集的列名可能不是很规范,需要整理修改理列名。获取DataFrame的列名,可以使用DataFrame.columns属性。movies_df.columns输出Index(['Rank','Genre','Description','...

Python机器学习(八十七)Pandas 去除重复

去除重复数据是一项常见操作,Pandas中,可以使用drop_duplicates方法。电影数据集没有重复的行,我们来制造一些重复行。temp_df=movies_df.append(movies_df)temp_df.shape输出(2000,11)append()将返回一个副本,不影响原始数据DataFrame。使...

Python机器学习(八十六)Pandas 数据集信息

使用.info方法,可以查看数据集的基本信息:movies_df.info()输出<class'pandas.core.frame.DataFrame'>Index:1000entries,GuardiansoftheGalaxytoNineLivesDatacolumns(total11columns):...

Python机器学习(八十五)Pandas 用head与tail查看数据

Pandas可以对数据集进行各种有用的分析和操作。让我们先从最简单的查看数据开始。我们将使用IMDB电影数据集来演示,数据集文件下载:IMDB-Movie-Data.csv首先加载CSV数据集,并将电影标题Title指定为索引。importpandasaspdmovies_df=pd.read_csv("IMDB-Mo...

Python机器学习(八十四)Pandas DataFrame存储到CSV, JSON,SQL

有时需要存储DataFrame到文件中,可以把DataFrame存储到CSV,JSON,SQL数据库中,如下所示:df.to_csv('new_purchases.csv')df.to_json('new_purchases.json')#保存到SQL数据库importsqlite3con=sqlite3.connec...
首页上一页...89101112...下一页尾页