51dev.com IT技术开发者社区

网站首页
行业头条
技术前沿
软件
硬件
- 资讯
  
  单片机硬件资讯
- 教程
  
  路由器
物联网
- 树莓派
开源
人工智能
开发
- 前端
  
  css3 Javascript html Html5 Css vue 网站优化正则表达式 React
- 后端
  
  C语言 C++ Java .Net PHP Python gis Go语言
- 数据库
  
  nosql 其他 Redis sql Mysql Oracle sqlserver mongodb
- 移动
  
  Flutter Android IOS 微信微信小程序支付宝小程序快应用
- 开源
  
  hadoop 资讯经验其他
- 工具
  
  互联网络代码编辑器报表/图表其他算法
- 操作系统
  
  linux unix windows centos mac
- 游戏开发
- 架构
  
  微服务网站架构分布式系统系统架构
- 软件工程
  
  敏捷开发软件工程
导航
工具
下载
搜索

【Hadoop离线基础总结】Sqoop数据迁移

【Hadoop离线基础总结】Sqoop数据迁移

目录Sqoop介绍概述版本Sqoop安装及使用Sqoop安装Sqoop数据导入导入关系表到Hive已有表中导入关系表到Hive（自动创建Hive表）将关系表子集导入到HDFS中sql语句查找导入到HDFS两种增量导入方式Sqoop的数据导出Sqoop介绍概述Sqoop是Apache开源提供过的一款H...

代码星球2020-08-09

【Hadoop离线基础总结】工作流调度器azkaban

【Hadoop离线基础总结】工作流调度器azkaban

目录Azkaban概述工作流调度系统的作用工作流调度系统的实现常见工作流调度工具对比Azkaban简单介绍安装部署Azkaban的编译azkaban单服务模式安装与使用azkaban两个服务模式安装与使用使用多job工作流flowHDFS操作任务MAPREDUCE任务HIVE脚本任务定时任务Azka...

代码星球2020-08-09

【Hadoop离线基础总结】日志采集框架Flume

【Hadoop离线基础总结】日志采集框架Flume

Flume介绍概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。它可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据sink（下沉）到HDFS、hbase、hive、kafka等众多外部存储系统中，因此，flume可以适用于大部...

代码星球2020-08-09

【Hadoop离线基础总结】Hive调优手段

【Hadoop离线基础总结】Hive调优手段

最常用的调优手段Fetch抓取MapJoin分区裁剪列裁剪控制map个数以及reduce个数JVM重用数据压缩Fetch的抓取出现原因Hive中对某些情况的查询不必使用MapReduce计算。在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。（原则...

代码星球2020-08-09

【Hadoop离线基础总结】Hive的基本操作

【Hadoop离线基础总结】Hive的基本操作

创建数据库与创建数据库表创建数据库的相关操作创建数据库：CREATETABLEIFNOTEXISTSmyhivehive创建表成功后的存放位置由hive-site.xml配置文件中的一个属性指定<name>hive.metastore.warehouse.dir</name>...

代码星球2020-08-09

【Hadoop离线基础总结】Hive的安装部署以及使用方式

【Hadoop离线基础总结】Hive的安装部署以及使用方式

安装部署Derby版hive直接使用cd/export/softwares将上传的hive软件包解压：tar-zxvfhive-1.1.0-cdh5.14.0.tar.gz-C../servers/cd/export/servers/hive-1.1.0-cdh5.14.0/启动：bin/hive缺...

代码星球2020-08-09

【Hadoop离线基础总结】数据仓库和hive的基本概念

【Hadoop离线基础总结】数据仓库和hive的基本概念

数据仓库概述数据仓库英文全称为DataWarehouse，一般简称为DW。主要目的是构建面向分析的集成化数据环境，主要职责是对仓库中的数据进行分析，支持我们做决策。主要特征面向主题（Subject-Oriented）：数据分析有一定的范围，需要选取一定的主题进行分析。集成性（Integrated）：...

代码星球2020-08-09

【Hadoop离线基础总结】MapReduce参数优化

【Hadoop离线基础总结】MapReduce参数优化

资源相关参数这些参数都需要在mapred-site.xml中配置mapreduce.map.memory.mb一个MapTask可使用的资源上限（单位:MB），默认为1024如果MapTask实际使用的资源量超过该值，则会被强制杀死。mapreduce.reduce.memory.mb一个Reduc...

代码星球2020-08-09

【Hadoop离线基础总结】Yarn集群的资源调度

【Hadoop离线基础总结】Yarn集群的资源调度

介绍概述Yarn是Hadoop2.x引入的新的资源管理系统模块，主要用于管理集群当中的资源（主要是服务器的各种硬件资源，比如内存、CPU等），它不光管理硬件资源，还管理运行的一些任务信息等。Yarn调度资源可以分为两个层级一级管理调度：管理计算机的资源、运行job任务的生命周期二级管理调度：任务的计...

代码星球2020-08-09

【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例

【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例

自定义InputFormat合并小文件需求无论hdfs还是mapreduce，存放小文件会占用元数据信息，白白浪费内存，实践中，又难免面临处理大量小文件的场景优化小文件的三种方式1.在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS2.在业务处理之前，在HDFS上使用mapreduce程...

代码星球2020-08-09

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

求取Top1的数据需求求出每一个订单中成交金额最大的一笔交易订单id商品id成交金额Order_0000005Pdt_01222.8Order_0000005Pdt_0525.8Order_0000002Pdt_03322.8Order_0000002Pdt_04522.4Order_0000002...

代码星球2020-08-09

【Hadoop离线基础总结】MapReduce倒排索引建立

【Hadoop离线基础总结】MapReduce倒排索引建立

求某些单词在文章中出现多少次有三个文档的内容，求hello,tom,jerry三个单词在其中各出现多少次hellotomhellojerryhellotomhellojerryhellojerrytomjerryhellojerryhellotomjava代码实现定义一个Mapper类package...

代码星球2020-08-09

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？用户及好友数据A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,...

代码星球2020-08-09

【Hadoop离线基础总结】MapReduce增强（上）

【Hadoop离线基础总结】MapReduce增强（上）

MapReduce的分区与reduceTask的数量概述MapReduce当中的分区：物以类聚，人以群分。相同key的数据，去往同一个reduce。ReduceTask的数量默认为一个，可以自己设定数量 job.setNumRudeceTasks(3)分区决定了我们的数据该去往哪一个ReduceT...

代码星球2020-08-09

【Hadoop离线基础总结】MapReduce增强（下）

【Hadoop离线基础总结】MapReduce增强（下）

MapTask运行机制详解以及MapTask的并行度MapTask运行流程第一步：读取数据组件InputFormat（默认TextInputFormat）会通过getSplits方法，对输入目录中的文件（输入目录也就是TextInputFormat的Path）进行逻辑切片得到splits。 p...

代码星球2020-08-09

首页上一页 ...630 631 632 633 634 ...下一页尾页

热门点击

1为什么有导师的基于梯度下降的机器学习喜欢

　　版权申明：本文为博主窗户(Colin Cai)原创，欢迎转帖。如要转贴，必须注明原文网址　　http://www.cnblogs.com/Colin-Cai/p/7899171.html 　　作者：窗户　　QQ：6679072 　　E-mail：6679072@qq.com 　　bp神经网络为大家所熟知，推导中使用了基于梯度下降。而对于更为一般的情况，解决问题的出发点是建立一组函数fi(Ci,Xi), i=1..n，n为输出的个数，也就是函数的个数，对于每个fi，Ci是一个参数向量，Xi是一个输入向量，我们的目标就是为这组函数中的每个fi找到最合适的Ci。 ...

2反射的基本使用以及原理(Class获取方

3安卓Activity布局简述

4使用d3.v5实现折线图与面积图

5Net Framework 4.0 和.

6添加打印机的时候怎样说windows没法

7gcc编译工具生成动态库和静态库之一--

8leetcode 13 -> R

标签库

更多

Friendster 数据实验室 vps主机防盗链 Vps Aardvark ASP环境搭建安装手记 Autorun.inf类 AS4 Acer Ancestry Auriga ASP.NET缓存米农站长大会艾瑞网案例分析按照效果付费 alexa AOL Ai教程阿里妈妈 Adsense AdWords 安全设置 AppleStore APC arp Audition API接口案例分享 AOL中国安装教程 Air Account 按钮样式 Android应用爱普生安全测试 AllowOverride Autodesk AirBnB Acid3 安全防范 Ajax编码 aliweb AIM chatgpt 开源世界

最新推荐