#F

MR案例:小文件合并SequeceFile

SequeceFile是HadoopAPI提供的一种二进制文件支持。这种二进制文件直接将<key,value>对序列化到文件中。可以使用这种文件对小文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1).支持压缩,且可定制为基于Record或Block压缩(Bl...

Job流程:Shuffle详解

此文承接Job流程:Mapper类分析.MapReduce为确保每个reducer的输入都按键排序,数据从map输出到reducer输入的这段过程成为Shuffle。map端1).Spill溢写.每个map()方法都将处理结果输出到一个环形内存缓冲区buf(100MB)中(mapreduce.task.io.sort....
代码星球 ·2020-03-30

MR案例:CombineFileInputFormat

CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。此案例让我明白了三点:详见解读:MR多路径输入和解读:CombineFileInputFormat类对于单一输入路径情况://...
代码星球 ·2020-03-30

HDFS的回收站 && 安全模式

回收站机制 1).HDFS的回收站机制由core-site.xml中fs.trash.interval属性(以分钟为单位)设置,默认是0,表示未启用。注意:配置数值应该为1440,而配置24*60会抛出NumberFormatException异常(亲测)。 2).回收站特性被启用时,每个用户都有独立的回收站目录,即:...
代码星球 ·2020-03-30

解读:CombineFileInputFormat类

MR-Job默认的输入格式FileInputFormat为每一个小文件生成一个切片。CombineFileInputFormat通过将多个“小文件”合并为一个"切片"(在形成切片的过程中也考虑同一节点、同一机架的数据本地性),让每一个Mapper任务可以处理更多的数据,从而提高MR任务的执行速度...
代码星球 ·2020-03-30

MR案例:路径过滤PathFilter

问题描述:现有一批cookie日志,按照日期进行存放,如目录“dir/2015-08-08”下存放2015-08-08这一天的所有cookie。而目录“/2015-08-08/”下又根据数据文件名称的不同存放不同项目的cookie,如“project-flag...

HDFS并行复制Distcp

1)Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。2)distcp命令是以MR作业(没有R任务)的形式实现的,把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的,distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相同。3)集群之间的拷...
代码星球 ·2020-03-30

HDFS架构

1.HDFS的Block块概念HDFS默认的Block块大小为128MB。为何HDFS中的一个块那么大?HDFS的block块比磁盘的块大,目的是为了减小寻址开销。通过让一个块足够大,从磁盘转移数据的时间能够远远大于定位这个块开始端的时间。因此,传送一个由多个块组成的文件的时间就取决于磁盘传输送率。//HDFS中fsc...
代码星球 ·2020-03-30

MR案例:定制InputFormat

数据输入格式InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map的输入键值对。细节详见解读:标准输入/输出格式Hadoop中最常用的数据输入格式包括:TextInputFormat 和&...
代码星球 ·2020-03-29

【FFmpeg】FFmpeg常用基本命令

1.分离视频音频流ffmpeg-iinput_file-vcodeccopy-anoutput_file_video  //分离视频流ffmpeg-iinput_file-acodeccopy-vnoutput_file_audio  //分离音频流2.视频解复用ffmpeg–itest.mp4–vcodeccopy–...
代码星球 ·2020-03-29

【FFmpeg】ffplay播放rtsp视频流花屏问题 (转)

问题描述:ffplay播放rtsp视频流时,播放过程中随机出现花屏现象。基本流程学习:阅读ffplay源码,熟悉其播放rtsp视频流的基本流程。在ffplay源码阅读和分析的基础上,画出了其播放rtsp的函数调用关系,如下图所示:avformat_open_input函数根据输入的文件名,与rtsp_read_pack...

理解 pkg-config 工具

http://www.chenjunlu.com/2011/03/understanding-pkg-config-tool/你在Unix或Linux下开发过软件吗?写完一个程序,编译运行完全正常,在你本机上工作得好好的,你放到源代码管理系统中。然后,告诉你的同事说,你可以取下来用了。这时,你长长的出了一口气,几天的工...
代码星球 ·2020-03-29

mke2fs 制作ext2文件系统image

方法1:利用/dev/ram1:linux下有很多ram,我们用ram1,首先把ram1格式化成ext2文件系统[root@gucuiwenbabylinux]#  sudomkfs.ext2-m0/dev/ram1将ram1挂装到文件系统中:先建立一个挂装点:#mkdir/mnt/ram挂上ram...

wifidog 源码初分析(4)-转

在上一篇《wifidog源码处分析(3)》的流程结束后,接入设备的浏览器重定向至路由器上wifidog的http服务(端口2060)/wifidog/auth上(且携带了认证服务器为此接入设备分配的token),本篇就是从wifidog接收到/wifidog/auth的访问后的校验流程。-根据《wifidog源码初分析...
代码星球 ·2020-03-29

wifidog 源码初分析(3)-转

上一篇分析了接入设备在接入路由器,并发起首次HTTP/80请求到路由器上时,wifidog是如何将此HTTP请求重定向至auth-server的流程。之后接入设备的浏览器接收到wifidog返回的302重定向请求后,会将页面重定向至auth-server的/login页面,并且在此URL中会携带一些路由器/网关参数,以...
代码星球 ·2020-03-29
首页上一页...14591460146114621463...下一页尾页