HDFS主题的文章列表，还有HDFS的技术要点_第1页

hadoop fs,hadoop dfs及hdfs dfs区别

命令使用范围hadoopfs使用范围最广，可以操作任何文件系统。如：local,HDFS、LocalFS,HFTPFS,S3FS等hadoopdfs只HDFS文件系统相关hdfsdfs只HDFS文件系统相关（包括与LocalFS间的操作），已经Deprecated。hdfsfs只HDFS文件系统相关，最为常用。...

开发笔记 ·2022-01-12

阿里巴巴大规模应用Flink的踩坑经验：如何大幅降低 HDFS 压力？

众所周知Flink是当前广泛使用的计算引擎，Flink使用checkpoint机制进行容错处理[1]，Flink的checkpoint会将状态快照备份到分布式存储系统，供后续恢复使用。在Alibaba内部我们使用的存储主要是HDFS，当同一个集群的Job到达一定数量后，会对HDFS造成非常大的压力，本文将介绍一种大幅度...

代码星球 ·2021-02-24

为数据计算提供强力引擎，阿里云文件存储HDFS v1.0公测发布

在2019年3月的北京云栖峰会上，阿里云正式推出全球首个云原生HDFS存储服务—文件存储HDFS，为数据分析业务在云上提供可线性扩展的吞吐能力和免运维的快速弹性伸缩能力，降低用户TCO。阿里云文件存储HDFS的发布真正解决了HDFS文件系统不适应云上场景的缺陷问题，用户无须花费精力维护和优化底层存储。云时代，通过借助虚...

代码星球 ·2021-02-24

大数据学习——服务器定期上传nginx日志到hdfs

需求：按照所学知识完成如下：服务器定期上传nginx日志到hdfs提示：Hdfs的创建文件夹命令：Hadoopfs-mkdir/文件夹名称Hdfs的上传命令：Hadoopfs-put目标文件/目标目录#日志文件存放的目录log_src_dir=/home/hadoop/logs/log/#待上传的日志存放目录log_t...

代码星球 ·2021-02-19

大数据学习——hdfs客户端操作

packagecn.itcast.hdfs;importorg.apache.commons.io.IOUtils;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.*;importorg.junit.Before;importo...

代码星球 ·2021-02-18

大数据学习——java操作hdfs环境搭建以及环境测试

1新建一个maven项目打印根目录下的文件的名字添加pom依赖pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www....

代码星球 ·2021-02-18

大数据学习——HDFS的shell

-help功能：输出这个命令参数手册-ls功能：显示目录信息示例：hadoopfs-lshdfs://hadoop-server01:9000/备注：这些参数中，所有的hdfs路径都可以简写-->hadoopfs-ls/等同于上一条命令的效果-mkdir功能：在hdfs上创建目录示例：hadoopfs-mkdir...

代码星球 ·2021-02-18

大数据学习——hdfs集群启动

第一种方式：1格式化namecode（是对namecode进行格式化）hdfsnamenode-format(或者是hadoopnamenode-format)进入cd/root/apps/hadoop/tmp/dfs/name/current启动namecode hadoop-daemon.sh...

代码星球 ·2021-02-18

大数据学习——kafka+storm+hdfs整合

1需求kafka,storm,hdfs整合是流式数据常用的一套框架组合，现在根据需求使用代码实现该需求需求:应用所学技术实现，kafka接收随机句子，对接到storm中；使用storm集群统计句子中每个单词重复出现的次数（wordcount），将统计结果存入hdfs中。1pom.xml<?xmlversion="...

代码星球 ·2021-02-17

大数据学习——实现多agent的串联，收集数据到HDFS中

采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求，首先定义以下3大要素第一台flumeagentl 采集源，即source——监控文件内容更新: &...

代码星球 ·2021-02-17

大数据学习——采集文件到HDFS

采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs 根据需求，首先定义以下3大要素l 采集源，即source——监控文件内容更新: exec ‘tail-Ffile’l 下沉目标，即sink——HDFS文件系...

代码星球 ·2021-02-17

大数据学习——采集目录到HDFS

采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素l 采集源，即source——监控文件目录: spooldirl 下沉目标，即sink——HDFS文件系统 : hdfssinkl&nbs...

代码星球 ·2021-02-17

大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上

点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（HadoopHDFS）上点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（HadoopHDFS）上一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力，避开高峰期。如果需要伪实时的上传，则采用定时上传的...

代码星球 ·2021-02-17

大数据学习——有两个海量日志文件存储在hdfs

有两个海量日志文件存储在hdfs上，其中登陆日志格式：user，ip，time，oper（枚举值：1为上线，2为下线）；访问之日格式为：ip，time，url，假设登陆日志中上下线信息完整，切同一上下线时间段内是用的ip唯一，计算访问日志中独立user数量最多的前10个url，用MapReduce实现。提示：1、要统计...

代码星球 ·2021-02-17

大数据学习——hdfs客户端流式操作代码的实现

packagecn.itcast.bigdata.hdfs.diceng;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.*;importorg.apache.hadoop.io.IOUtils;importorg.junit....

代码星球 ·2021-02-17