#包分析

线性回归分析中的哑变量

最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑变量在回归分析中的应用,总结如下:哑变量(DummyVariable),也叫虚拟变量,引入哑变量的目的是,将不能够定量处...

脚本中export不起作用的原因分析

#!bin/bash  export PATH=$PATH:/usr/lib/java/jre  export PATH=$PATH:/usr/lib/java/bin   ---path结果发现直接运行./path没起到效果,后...

sqoop简介和原理分析

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于20...
代码星球 ·2020-12-15

记一次内存溢出问题的排查、分析过程及解决思路

谨以此文献给自学路上的兄弟起因这个测试工具的开发已有一段时间了,由于数据量过大,写入数据较慢,导致工具执行耗时较长,所以再次优化了实现方案,进行二阶段的程序开发。经优化后,2000条数据写入,耗时4秒,个人感觉,快了很多了。于是,想批量执行下,看下耗时多长。结果10分钟、20分钟、1个小时过去了...程序一直在写入数据...

彩票历史记录分析工具 -- 通过实例学习wpf开发

前言 虽然本人对彩票不感兴趣,仍然有不少人对此情有独钟。他们花大量时间精力去分析彩票的历史记录,企图发现规律,为下一次投注做指导,希望“赢的“”概率增大。不管研究历史记录是否有意义,我用软件实现了对彩票的分析,手工分析彩票几天工作量,现在一秒可以实现。执行程序,点我下载!程序界面  处理原...

ofd电子文档内容分析工具(分析文档、签章和证书)

前言ofd是国家文档标准,其对标的文档格式是pdf。ofd文档是容器格式文件,ofd其实就是压缩包。将ofd文件后缀改为.zip,解压后可看到文件包含的内容。ofd阅读器程序(已集成了转图、转PDF功能)下载。ofd文件解压后,可以看到如下内容:对于xml文件,可以用文本工具查看。但是对于印章文件(Seal.esl)、...

实战案例-微博情感分析

数据:每个文本文件包含相应类的数据0:喜悦;1:愤怒;2:厌恶;3:低落步骤文本读取分割训练集、测试集特征提取模型训练、预测代码:tools.py#-*-coding:utf-8-*-importreimportjieba.possegaspsegimportpandasaspdimportmathimportnump...

情感分析

将自然语言(文本)转化为计算机程序更容易理解的形式预处理得到的字符串->向量化经典应用情感分析文本相似度文本分类情感字典(sentimentdictionary)人工构造一个字典,如: like ->1, good ->2, bad ->...
代码星球 ·2020-12-10

数据分析

项目参考:https://www.kaggle.com/bhouwens/d/openfoodfacts/world-food-facts/how-much-sugar-do-we-eat/discussion#-*-coding:utf-8-*-#处理zip压缩文件importzipfileimportosimpor...
代码星球 ·2020-12-10

数据分析工具pandas简介

Pandas的名称来自于面板数据(paneldata)和Python数据分析(dataanalysis)。Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。一个强大的分析...

数据分析建模理论基础1

大数据分析场景和模型应用数据分析建模需要先明确业务需求,然后选择是 描述型分析 还是 预测型分析。如果分析的目的是描述目标行为模式,就采用描述型数据分析,描述型分析就考虑 关联规则、 序列规则 、 聚类 等模型。如果是预测型数据分析,就是量...
代码星球 ·2020-12-10

数据分析建模理论基础

大数据分析场景和模型应用数据分析建模需要先明确业务需求,然后选择是 描述型分析 还是 预测型分析。如果分析的目的是描述目标行为模式,就采用描述型数据分析,描述型分析就考虑 关联规则、 序列规则 、 聚类 等模型。如果是预测型数据分析,就是量...
代码星球 ·2020-12-10

数据分析前期

Python2orPython3Python2.x是早期版本,Python3.x是当前版本Python2.7(2.x的最终版)于2010年发布后很少有大的更新Python2.x比Python3.x拥有更多的工具库大多数Linux系统默认安装的仍是Python2.x版本选择取决于要解决的问题建议选择Python2.x的情...
代码星球 ·2020-12-10

Redis 性能问题分析

在一些网络服务的系统中,Redis的性能,可能是比MySQL等硬盘数据库的性能更重要的课题。比如微博,把热点微博[1],最新的用户关系[2],都存储在Redis中,大量的查询击中Redis,而不走MySQL。那么,针对Redis服务,我们能做哪些性能优化呢?或者说,应该避免哪些性能浪费呢?在讨论优化之前,我们需要知道,...
代码星球 ·2020-12-10

Redis 性能分析及优化

  内存诊断内存使用率是Redis服务最关键的一部分。如果Redis实例的内存使用率超过最大可用内存,即“used_memory”>最大可用内存,那么操作系统会将内存与Swap空间交换,把内存中旧的或不再使用的内容写入硬盘上的Swap分区,以便留出新的物理内存给新页或活动页(page)使用。通...
代码星球 ·2020-12-10
首页上一页...2021222324...下一页尾页