#Python数据分析与挖掘实战

如何利用pyCharm编写和运行python文件

在安装python环境后,通常可以利用IDEpyCharm来编译我们的python文件。创建一个python文件夹,用pyCharm打开文件夹,在文件夹中新建一个python文件demo.py 也许你知道用cmd中的python指令 pythondemo.py去运行这个文件,但是如何在pyCharm...

时间函数 python

1.将字符串的时间转换为时间戳    方法:        a="2013-10-1023:40:00"        ...
代码星球 ·2021-02-23

python 直连 hive

https://blog.csdn.net/qq_41664845/article/details/80775319 ...
代码星球 ·2021-02-23

XGboost数据比赛实战之调参篇(完整流程)

这一篇博客的内容是在上一篇博客Scikit中的特征选择,XGboost进行回归预测,模型优化的实战的基础上进行调参优化的,所以在阅读本篇博客之前,请先移步看一下上一篇文章。我前面所做的工作基本都是关于特征选择的,这里我想写的是关于XGBoost参数调整的一些小经验。之前我在网站上也看到很多相关的内容,基本是翻译自一篇英...

Python字符串格式化--format()方法

"{}:计算机{}的CPU占用率为{}%。".format("2016-12-31","PYTHON",10)Out[10]:'2016-12-31:计算机PYTHON的CPU占用率为10%。'字符串类型格式化采用format()方法,基本使用格式是:     <...

python离散特征编码

离散特征编码分两种,特征具有大小意义,特征不具有大小意义。1、特征不具备大小意义的直接独热编码2、特征有大小意义的采用映射编码[python] viewplain copy import pandas as pd   df&nbs...
代码星球 ·2021-02-23

python中shuffleSplit()函数

参数: n :int/数据集中的元素总数。n_iter :int(default10)/重新洗牌和分裂迭代次数。test_size :float(default0.1),int,orNone/如果是float类型的数据,这个数应该介于0-1.0之间,代表test集所占比例.如果是...
代码星球 ·2021-02-23

在Python中使用多进程快速处理数据

转自:https://blog.csdn.net/bryan__/article/details/78786648 数据分片:可以将数据分片处理的任务适合用多进程代码处理,核心思路是将data分片,对每一片数据处理返回结果(可能是无序的),然后合并。应用场景:多进程爬虫,类mapreduce任务。缺点是子进程...

python merge、concat合并数据集

pandas和python标准库提供了一整套高级、灵活的、高效的核心函数和算法将数据规整化为你想要的形式!本篇博客主要介绍:合并数据集:.merge()、.concat()等方法,类似于SQL或其他关系型数据库的连接操作。参数说明left参与合并的左侧DataFrameright参与合并的右侧DataFramehow连...

Python scipy.sparse矩阵使用方法

本文以csr_matrix为例来说明sparse矩阵的使用方法,其他类型的sparse矩阵可以参考https://docs.scipy.org/doc/scipy/reference/sparse.htmlcsr_matrix是CompressedSparseRowmatrix的缩写组合,下面介绍其两种初始化方法csr...

python 日期

TimeTuple: 索引字段值0年(四位数字)20151月份1- 122日期1-313小时0-234分钟0-595秒0-61(60或61是闰秒)6星期0-6(0为星期一)7一年中的第几天1-366(Julian日期)8夏令时-1,0,1,-1表示库决定DST上面的元组相当于struct_time结...
代码星球 ·2021-02-23

cart树回归及其剪枝的python实现

转自穆晨阅读目录前言回归树回归树的优化工作-剪枝模型树回归树/模型树的使用小结回到顶部      前文讨论的回归算法都是全局且针对线性问题的回归,即使是其中的局部加权线性回归法,也有其弊端(具体请参考前文)    &nb...

LDA主题模型原理解析与python实现

wind_blastLDA参数:K为主题个数,M为文档总数,是第m个文档的单词总数。 是每个Topic下词的多项分布的Dirichlet先验参数,  是每个文档下Topic的多项分布的Dirichlet先验参数。是第m个文档中第n个词的主题,是m个文档中的第n个词。剩下来的两个隐含变量和分...

python各种转义字符

 转义字符描述(在行尾时)续行符\反斜杠符号’单引号”双引号a响铃退格(Backspace)e转义00空换行v纵向制表符横向制表符回车f换页oyy八进制数yy代表的字符,例如:o12代表换行xyy十进制数yy代表的字符,例如:x0a代表换行other其它的字符以普通格式输出...
代码星球 ·2021-02-23

朴素贝叶斯原理及python实现

转自穆晨阅读目录前言词向量算法原理训练算法剖析:如何计算某个词向量的概率朴素贝叶斯分类算法的完整实现小结回到顶部      本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现。回到顶部    ...
首页上一页...1920212223...下一页尾页