#P

HDFS并行复制Distcp

1)Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。2)distcp命令是以MR作业(没有R任务)的形式实现的,把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的,distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相同。3)集群之间的拷...
代码星球 ·2020-03-30

Sqoop相关

1. 常规步骤(安装在一台节点上即可)由于sqoop2配置相对比较麻烦,此次使用的是sqoop1进行演示。上传sqoop-1.4.4.bin_hadoop-2.0.4-alpha.tar.gz文件至/hadoop目录下,解压并重命名为sqoop-1.4.4,配置/etc/profile文件并source刷新。...
代码星球 ·2020-03-29

Hive的Explain命令

Hive的Explain命令,用于显示SQL查询的执行计划。Hive查询被转化成序列阶段(这是一个有向无环图)。这些阶段可能是mapper/reducer阶段,或者是Metastore或文件系统的操作,如移动和重命名的阶段。例子 hive>explain[extended]--加上关键字extended...
代码星球 ·2020-03-29

MR案例:链式ChainMapper

类似于Linux管道重定向机制,前一个Map的输出直接作为下一个Map的输入,形成一个流水线。设想这样一个场景:在Map阶段,数据经过mapper01和mapper02处理;在Reduce阶段,数据经过sort和shuffle后,交给对应的reducer处理。reducer处理后并没有直接写入到Hdfs, 而...
代码星球 ·2020-03-29

MR案例:定制Partitioner

可以继承基类Partitioner,也可以继承默认的HashPartitioner类,覆写其中的getPartition()方法实现自己的分区。需求:本例是对上一个实例的改写,需求不变 packagecountry;importjava.io.IOException;importjava.io.Unsuppo...
代码星球 ·2020-03-29

MR案例:多文件输出MultipleOutputs

问题描述:现有ip-to-hosts.txt数据文件,文件中每行数据有两个字段:分别是ip地址和该ip地址对应的国家,以''分隔。要求汇总不同国家的IP数,并以国家名为文件名将其输出。解读:MultipleOutputs类测试数据:ip-to-hosts.txt18.217.167.70UnitedStates206....

MR案例:定制InputFormat

数据输入格式InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map的输入键值对。细节详见解读:标准输入/输出格式Hadoop中最常用的数据输入格式包括:TextInputFormat 和&...
代码星球 ·2020-03-29

解读:Hadoop序列化类

序列化(serialization)是指将结构化的对象转化字节流,以便在进程间通信或写入硬盘永久存储。反序列化(deserialization)是指将字节流转回到结构化对象的过程。需要注意的是,能够在网络上传输的只能是字节流。所以,Map的中间结果在不同主机间Shuffle洗牌时,结构化对象将经历序列化(map结果写入...
代码星球 ·2020-03-29

TCP协议三次握手过程分析(改)

TCP(TransmissionControlProtocol) 传输控制协议TCP是主机对主机层的传输控制协议,提供可靠的连接服务,采用三次握手确认建立一个连接:位码即tcp标志位,有6种标示:SYN(synchronous---同步的---建立联机)ACK(acknowledgement---确认)PSH(push...

Python 3 数值计算

Python3.4.3(v3.4.3:9b73f1c3e601,Feb242015,22:43:06)[MSCv.160032bit(Intel)]onwin32Type"copyright","credits"or"license()"formoreinformation.>>>17/3#典型的除法...
代码星球 ·2020-03-29

WPS 文字排版 标题回车后标题号自动增加

飞思卡来互联网提供全球性的看了看风格的呵呵合格否d合格否的secureembedded嵌入式解个国家和地区,注册了成千上万项专利,产品面向物联网,汽车电子,消费电子,工业及网络设备等市场,提供技术包括微处理器,微控制器,传感器,模拟IC和连接,产品和技术推动新一波创新浪潮1.飞思卡来互联网提供全球性的看了看风格的呵呵合...

【CUDA学习】GPU硬件结构

GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm。sp:最基本的处理单元,streamingprocessor 最后具体的指令和任务都是在sp上处理的。GPU进行并行计算,也就是很多个sp同时做处理sm:多个sp加上其他的一些资源组...

【OpenCV学习】计算两幅图像的重叠区域

问题描述:已知两幅图像Image1和Image2,计算出两幅图像的重叠区域,并在Image1和Image2标识出重叠区域。算法思想:若两幅图像存在重叠区域,则进行图像匹配后,会得到一张完整的全景图,因而可以转换成图像匹配问题。图像匹配问题,可以融合两幅图像,得到全景图,但无法标识出在原图像的重叠区域。将两幅图像都理解为...

【FFmpeg】FFmpeg常用基本命令

1.分离视频音频流ffmpeg-iinput_file-vcodeccopy-anoutput_file_video  //分离视频流ffmpeg-iinput_file-acodeccopy-vnoutput_file_audio  //分离音频流2.视频解复用ffmpeg–itest.mp4–vcodeccopy–...
代码星球 ·2020-03-29

【FFmpeg】ffplay播放rtsp视频流花屏问题 (转)

问题描述:ffplay播放rtsp视频流时,播放过程中随机出现花屏现象。基本流程学习:阅读ffplay源码,熟悉其播放rtsp视频流的基本流程。在ffplay源码阅读和分析的基础上,画出了其播放rtsp的函数调用关系,如下图所示:avformat_open_input函数根据输入的文件名,与rtsp_read_pack...
首页上一页...32973298329933003301...下一页尾页