#实验一

吴裕雄--天生自然HADOOP操作实验学习笔记:协同过滤算法

实验目的初步认识推荐系统学会用mapreduce实现复杂的算法学会系统过滤算法的基本步骤实验原理  前面我们说过了qq的好友推荐,其实推荐算法是所有机器学习算法中最重要、最基础、最复杂的算法,一个推荐系统的架构,需要综合考虑离线计算、实时计算。需要用到的技术可能还有Flume、Kafka、Redis、Storm、Spa...

吴裕雄--天生自然HADOOP操作实验学习笔记:pagerank算法

实验目的了解PageRank算法学会用mapreduce解决实际的复杂计算问题实验原理1.pagerank算法简介  PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。  pagerank是Google排名运算法则(排名公式)的一部分,pagerank是Google用于用来标识网页的等级/重要...

吴裕雄--天生自然HADOOP操作实验学习笔记:qq好友推荐算法

实验目的初步认识图计算的知识点复习mapreduce的知识点,复习自定义排序分组的方法学会设计mapreduce程序解决实际问题实验原理  QQ好友推荐算法是所有推荐算法中思路最简单的,我们利用的思想就是好友的好友很有可能是自己的好友,而共同好友越多,说明两个人认识的可能性越大。其实这个想法属于图计算的内容,人际关系社...

吴裕雄--天生自然HADOOP操作实验学习笔记:Wor的Count程序的编写

实验目的理解mapreduce的工作原理理解Partitioner的书写方法理解GroupingComparator的书写方法实验原理  我们已经学习了hadoop的大部分基础知识,剩下的就是利用hadoop解决实际的业务问题。首先我们回顾一下mapreduce的工作过程:  数据通过InputFormat中定义的Re...

吴裕雄--天生自然HADOOP操作实验学习笔记:hbase微博案例

实验目的熟悉hbase表格设计的方法熟悉hbase的javaAPI通过API理解掌握hbase的数据的逻辑视图了解MVC的服务端设计方式实验原理  上次我们已经初步设计了学生选课案例的,具体功能还不完善,但是实现方式都是在已经设计好的表格之上,调用hbase已有的API,本次我们将会实现一个稍微复杂的业务逻辑,类似新浪...

吴裕雄--天生自然HADOOP操作实验学习笔记:hbase学生选课案例

实验目的复习hbase的shell操作和javaAPI操作了解javaWeb项目的MVC设计学会dao(数据库访问对象)和service层的代码编写规范学会设计hbase表格实验原理  前面我们已经了解hbase的shell操作、javaAPI操作,并且能够使用hive操作hbase表格(实际上是转化为mapreduc...

吴裕雄--天生自然HADOOP操作实验学习笔记:hbase的javaAPI应用

实验目的进一步了解hbase的操作熟悉使用IDEA进行java开发熟悉hbase的javaAPI实验原理  前面已经了解通过hbase的shell操作hbase,确实比较难以使用,另外通过hive也可以操作hbase,今天我们学习通过javaAPI操作hbase。1.创建连接  我们以前在hbase简介的时候讲过,客户...

吴裕雄--天生自然HADOOP操作实验学习笔记:使用hive操作hbase

实验目的熟悉hive和hbase的操作熟悉hadoop、hbase、hive、zookeeper的关系熟练大数据环境的搭建学会分析日志排除问题实验原理1.hive整合hbase原理  前面大家已经了解了Hive和Hbase,Hive是一个mapreduce的客户端,把sql语句转化为mapreduce程序执行,同时提供...

吴裕雄--天生自然HADOOP操作实验学习笔记:hbase的shell应用v2.0

    HRegion  当表的大小超过设置值的时候,HBase会自动地将表划分为不同的区域,每个区域包含所有行的一个子集。对用户来说,每个表是一堆数据的集合,靠主键来区分。从物理上来说,一张表被拆分成了多块,每一块就是一个HRegion。我们用表名+开始/结束主键来区分每一个H...

吴裕雄--天生自然HADOOP操作实验学习笔记:hive DDL

实验目的了解hiveDDL的基本格式了解hive和hdfs的关系学习hive在hdfs中的保存方式学习一些典型常用的hiveDDL实验原理  有关hive的安装和原理我们已经了解,这次实验我们通过使用hive进行简单的测试进一步了解hive。hiveDDL的意思是HiveDataDefinitionLanguage,h...

吴裕雄--天生自然HADOOP操作实验学习笔记:mapreduce和yarn命令

实验目的了解集群运行的原理学习mapred和yarn脚本原理学习使用Hadoop命令提交mapreduce程序学习对mapred、yarn脚本进行基本操作实验原理1.hadoop的shell脚本  上一节介绍了hadoop脚本的使用,这一节介绍mapreduce和yarn的shell命令,对应的脚本为hadoop安装目...

吴裕雄--天生自然HADOOP操作实验学习笔记:hdfs简单的shell命令

实验目的了解bin/hadoop脚本的原理学会使用fsshell脚本进行基本操作学习使用hadoopshell进行简单的统计计算实验原理1.hadoop的shell脚本  当hadoop集群正常工作后,我们就可以使用hadoop进行我们需要的操作。我们的操作主要分为两种,第一种是使用shell命令,另一种是通过hado...

吴裕雄--天生自然HADOOP操作实验学习笔记:mapreduce代码编程

实验目的深入了解mapreduce的底层了解IDEA的使用学会通过本地和集群环境提交程序实验原理1.回忆mapreduce模型  前面进行了很多基础工作,本次实验是使用mapreduce的API进行简单的大数据业务处理。  MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)...

吴裕雄--天生自然HADOOP操作实验学习笔记:分布式及RPC通信简介

实验目的掌握GOF设计模式的代理模式了解掌握socket编程、java反射、动态代理了解NIO、多线程掌握hadoop的RPC框架使用API实验原理1.什么是RPC  在hadoop出现以前,我们写的程序一般都是单机版本,只能在一台机器上处理,而一台机器的处理能力总是有限的,hadoop让我们可以写出分布式程序,将多台...

吴裕雄--天生自然HADOOP操作实验学习笔记:分布式资源调度系统yarn的安装

实验目的复习配置hadoop初始化环境复习配置hdfs的配置文件学会配置hadoop的配置文件了解yarn的原理实验原理1.yarn是什么  前面安装好了hdfs文件系统,我们可以根据需求进行数据的读写操作。hdfs解决了大数据的存储,接下来的问题就是根据实际的业务需求进行计算。目前大数据的计算业务主要有离线计算、实时...
首页上一页...23456...下一页尾页