#APR

关联规则之Aprior算法(购物篮分析)

0.支持度与置信度《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)支持度、置信度越大,商品出现一起购买的次...

Nginx/LVS/HAProxy负载均衡软件的优缺点

一般对负载均衡的使用是随着网站规模的提升根据不同的阶段来使用不同的技术。具体的应用需求还得具体分析,如果是中小型的Web应用,比如日PV小于1000万,用Nginx就完全可以了;如果机器不少,可以用DNS轮询,LVS所耗费的机器还是比较多的;大型网站或重要的服务,且服务器比较多时,可以考虑用LVS。一种是通过硬件来进行...

Hadoop: MapReduce2多个job串行处理

复杂的MapReduce处理中,往往需要将复杂的处理过程,分解成多个简单的Job来执行,第1个Job的输出做为第2个Job的输入,相互之间有一定依赖关系。以上一篇中的求平均数为例,可以分解成三个步骤:1.求Sum2.求Count3.计算平均数每1个步骤看成一个Job,其中Job3必须等待Job1、Job2完成,并将Jo...

Hadoop: MapReduce2的几个基本示例

1)WordCount 这个就不多说了,满大街都是,网上有几篇对WordCount的详细分析http://www.sxt.cn/u/235/blog/5809http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/27/3036549.html这二篇都写得...

hadoop mapred-queue-acls 配置(转)

hadoop作业提交时可以指定相应的队列,例如:-Dmapred.job.queue.name=queue2通过对mapred-queue-acls.xml和mapred-site.xml配置可以对不同的队列实现不同用户的提交权限.先编辑mapred-site.xml,修改配置如下(增加四个队列):<proper...
代码星球 ·2020-04-06

haproxy 新手上路

apache、nginx之类的反向代理(转发)功能,通常只能用于http协议,其它协议就不好使了(注:nginx据说商业版的,支持tcp协议了)。haproxy可以弥补这方面的不足,haproxy支持http/tcp多种协议,可以当做rpc(thrift/gRPC/avro)框架前端的负载均衡转发中间件,下面介绍基本使...
代码星球 ·2020-04-06

Hadoop,MapReduce,HDFS面试题

今天发这个的目的是为了给自己扫开迷茫,告诉自己该进阶了,下面内容不一定官方和正确。全然个人理解,欢迎大家留言讨论答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。hadoop的核心主要包括:HDFS和MapReduceHDFS是分布式文件系统。用于分布式存储海量数据。MapReduc...
代码星球 ·2020-04-06

【Hadoop入门学习系列之五】MapReduce 2.0编程实战

转载:https://blog.csdn.net/shengmingqijiquan/article/details/52916664一.MapReduce2.0编程模型关于MR编程模型请参考上一篇:【Hadoop入门学习系列之四】MapReduce2.0应用场景和原理、基本架构和编程模型二.MapReduce2.0编...

【Hadoop入门学习系列之四】MapReduce 2.0应用场景和原理、基本架构和编程模型

一.MapReduce的应用场景1.MapReduce特点易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理备注:*MR的最后一个特性就注定了它的应用场景的特定性,专门为处理离线批量大数据*而生。问:那MR不擅长什么啊?它不擅长的东西谁比较擅长呢?2.MapReduce的特色—不擅长的方面...

How to Plan and Configure YARN and MapReduce 2 in HDP 2.0

AspartofHDP2.0Beta,YARN takestheresourcemanagementcapabilitiesthatwereinMapReduceandpackagesthemsotheycanbeusedbynewengines. ThisalsostreamlinesMapRed...
代码星球 ·2020-04-05

基于HAProxy+Keepalived高可用负载均衡web服务的搭建

1.HAProxyHAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理,支持虚拟主机,它是免费、快速并且可靠的一种解决方案。HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。HAProxy运行在时下的硬件上,完全可以支持数以万计的并发连接。并且它的运行模式使得它可...

MapReduce C++ Library

MapReduceC++Library forsingle-machine,multicoreapplicationsDistributedandscalablecomputingdisciplineshaverecognizedthatimmutabledata,lockfreeaccess,andisol...
代码星球 ·2020-04-05

Software Scalability with MapReduce

 SoftwareScalabilitywithMapReduceCraig HendersonFirstpublishedonlineApril2010Thearchitectureofa software systemisthestructureanddesignofthec...

Apriori

 基本概念项与项集:设itemset={item1,item_2,…,item_m}是所有项的集合,其中,item_k(k=1,2,…,m)成为项。项的集合称为项集(itemset),包含k个项的项集称为k项集(k-itemset)。事务与事务集:一个事务T是一个项集,它是item...
代码星球 ·2020-04-04

haproxy+keepalived实现高可用负载均衡

https://www.cnblogs.com/daixiang/p/5575477.html  HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理,支持虚拟主机。HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。HAProxy运行在时下的硬件上,完全可以支持数...
首页上一页...56789下一页尾页