数据结构与算法主题的文章列表，还有数据结构与算法的技术要点_第82页

吴裕雄--天生自然HADOOP操作实验学习笔记：qq好友推荐算法

实验目的初步认识图计算的知识点复习mapreduce的知识点，复习自定义排序分组的方法学会设计mapreduce程序解决实际问题实验原理　　QQ好友推荐算法是所有推荐算法中思路最简单的，我们利用的思想就是好友的好友很有可能是自己的好友，而共同好友越多，说明两个人认识的可能性越大。其实这个想法属于图计算的内容，人际关系社...

代码星球 ·2020-05-23

吴裕雄--天生自然HADOOP操作实验学习笔记：tf-idf算法

实验目的通过实验了解tf-idf算法原理通过实验了解mapreduce的更多组件学会自定义分区，读写缓存文件了解mapreduce程序的设计方法实验原理1.TF-IDF简介　　TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技...

代码星球 ·2020-05-23

吴裕雄--天生自然HADOOP学习笔记：hadoop集群实现PageRank算法实验报告

实验课程名称：大数据处理技术实验项目名称：hadoop集群实现PageRank算法实验类型：综合性实验日期：2018年6月4日-6月14日学生姓名吴裕雄学号15210120331班级软工三班专业名称软件工程实验组其他成员无实验地点F110实验成绩（教师签名）实验目的与要求了解Page...

代码星球 ·2020-05-23

吴裕雄--天生自然C++语言学习笔记：C++ 数据结构

C/C++数组允许定义可存储相同类型数据项的变量，但是结构是C++中另一种用户自定义的可用的数据类型，它允许存储不同类型的数据项。结构用于表示一条记录，假设想要跟踪图书馆中书本的动态，可能需要跟踪每本书的下列属性：Title：标题Author：作者Subject：类目BookID：书的ID为了定义结构，必须使用stru...

代码星球 ·2020-05-23

吴裕雄--天生自然python机器学习：朴素贝叶斯算法

分类器有时会产生错误结果，这时可以要求分类器给出一个最优的类别猜测结果，同时给出这个猜测的概率估计值。概率论是许多机器学习算法的基础在计算特征值取某个值的概率时涉及了一些概率知识，在那里我们先统计特征在数据集中取某个特定值的次数，然后除以数据集的实例总数，就得到了特征取该值的概率。首先从一个最简单的概率分类器开始，然后...

代码星球 ·2020-05-23

吴裕雄--天生自然python机器学习：决策树算法

我们经常使用决策树处理分类问题’近来的调查表明决策树也是最经常使用的数据挖掘算法。它之所以如此流行，一个很重要的原因就是使用者基本上不用了解机器学习算法，也不用深究它是如何工作的。 K-近邻算法可以完成很多分类任务，但是它最大的缺点就是无法给出数据的内在含义，决策树的主要优势就在于数据形式非常容易...

代码星球 ·2020-05-23

吴裕雄--天生自然python机器学习：KNN-近邻算法在手写识别系统上的应用

需要识别的数字已经使用图形处理软件，处理成具有相同的色彩和大小®:宽髙是32像素*32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用内存空间，但是为了方便理解，我们还是将图像转换为文本格式。准备数据：将图像转换为测试向量每个数字大约有200个样本；目录中包...

代码星球 ·2020-05-23

吴裕雄--天生自然python机器学习：使用K-近邻算法改进约会网站的配对效果

在约会网站使用K-近邻算法准备数据：从文本文件中解析数据海伦收集约会数据巳经有了一段时间，她把这些数据存放在文本文件(1如1^及抓比加中，每个样本数据占据一行，总共有1000行。海伦的样本主要包含以下3种特征：每年获得的飞行常客里程数玩视频游戏所耗时间百分比每周消费的冰淇淋公升数将文...

代码星球 ·2020-05-23

吴裕雄--天生自然python机器学习：K-近邻算法介绍

k-近邻算法概述简单地说，谷近邻算法采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关...

代码星球 ·2020-05-23

吴裕雄--天生自然python学习笔记：Python3 数据结构

列表Python中列表是可变的，这是它区别于字符串和元组的最重要的特点，一句话概括即：列表可以修改，而字符串和元组不能。list.append(x)把一个元素添加到列表的结尾，相当于a[len(a):]=[x]。list.extend(L)通过添加指定列表的所有元素来扩充列表，相当于a[len(a):]=L。list....

代码星球 ·2020-05-23

吴裕雄--天生自然数据结构：十大经典排序算法——基数排序

基数排序基数排序是一种非比较型整数排序算法，其原理是将整数按位数切割成不同的数字，然后按每个位数分别比较。由于整数也可以表达字符串（比如名字或日期）和特定格式的浮点数，所以基数排序也不是只能使用于整数。1.基数排序vs计数排序vs桶排序基数排序有两种方法：这三种排序算法都利用了桶的概念，但对桶的使用方法上有明显差异：基...

代码星球 ·2020-05-23

吴裕雄--天生自然数据结构：十大经典排序算法——桶排序

桶排序是计数排序的升级版。它利用了函数的映射关系，高效与否的关键就在于这个映射函数的确定。为了使桶排序更加高效，我们需要做到这两点：在额外空间充足的情况下，尽量增大桶的数量使用的映射函数能够将输入的N个数据均匀的分配到K个桶中同时，对于桶中元素的排序，选择何种比较排序算法对于性能的影响至关重要。什么时候最快当输入的数据...

代码星球 ·2020-05-23

吴裕雄--天生自然数据结构：十大经典排序算法——计数排序

计数排序计数排序的核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。作为一种线性时间复杂度的排序，计数排序要求输入的数据必须是有确定范围的整数。1.计数排序的特征当输入的元素是n个0到k之间的整数时，它的运行时间是Θ(n+k)。计数排序不是比较排序，排序的速度快于任何比较排序算法。由于用来计数的数组...

代码星球 ·2020-05-23

吴裕雄--天生自然数据结构：十大经典排序算法——堆排序

堆排序（Heapsort）是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于（或者大于）它的父节点。堆排序可以说是一种利用堆的概念来排序的选择排序。分为两种方法：大顶堆：每个节点的值都大于或等于其子节点的值，在堆排序算法中用于升序排列；小顶堆：...

代码星球 ·2020-05-23

吴裕雄--天生自然数据结构：十大经典排序算法——快速排序

快速排序快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下，排序n个项目要Ο(nlogn)次比较。在最坏状况下则需要Ο(n2)次比较，但这种状况并不常见。事实上，快速排序通常明显比其他Ο(nlogn)算法更快，因为它的内部循环（innerloop）可以...

代码星球 ·2020-05-23