#HBase

大数据集群运维(1)Hadoop + Hive + HBase + Kylin伪分布式安装

问题导读1. Centos7如何安装配置?2. linux网络配置如何进行?3. linux环境下java 如何安装?4. linux环境下SSH免密码登录如何配置?5. linux环境下Hadoop2.7 如何安装?6. linux环境下...

Couchbase 环境搭建与使用(C#)

CouchbaseCouchbaseServer(前身是Membase)是一个分布式的面向文档的NoSQL数据库管理系统,该系统联合了CouchDB的简单和可靠以及Memcached的高性能。安装下载相应的版本文件http://www.couchbase.com/nosql-databases/downloads?gt...

HBase Rowkey 设计指南

RowKey到底是什么  我们常说看一张HBase表设计的好不好,就看它的RowKey设计的好不好。可见RowKey在HBase中的地位。那么RowKey到底是什么?RowKey的特点如下:类似于MySQL、Oracle中的主键,用于标示唯一的行;完全是由用户指定的一串不重复的字符串;HBase中的...
代码星球 ·2020-09-05

HBase中加盐(Salting)之后的表如何读取:协处理器文章

我们介绍了避免数据斑点的三种比较常见方法:加盐-盐腌哈希-散列反转-反转其中在加盐(Salting)的方法里面是这么描述的:给Rowkey分配一个随机指针以使其和之前排序不同。但是在Rowkey前面加了随机重叠,那么我们怎么将这些数据替换来呢?我将分三篇文章来介绍如何读取加盐之后的表,其中每篇文章提供一种方法,主要包括...

sparkcore入门到实战之(14)HBase 中加盐(Salting)之后的表如何读取

我们知道,HBase 为我们提供了hbase-mapreduce工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:ThismodulecontainsimplementationsofInputFormat,O...

Spark SQL入门到实战之(5)使用 Spark SQL 高效地读写 HBase

Apache Spark 和Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前Spark内置是支持很多数据源的,其中就包括了HBase,但是内置的读取数据源还是使...

sparkcore入门到实战之(13)在Spark上通过BulkLoad快速将海量数据导入到Hbase

本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用BulkLoadAPI。  使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中,...

Hive和HBase整合用户指南

本文讲解的Hive和HBase整合意思是使用Hive读取Hbase中的数据。我们可以使用HQL语句在HBase表上进行查询、插入操作;甚至是进行Join和Union等复杂查询。此功能是从Hive 0.6.0开始引入的,详情可以参见HIVE-705。Hive与HBase整合的实现是利用两者本身对外的API接口互...

sparkcore入门到实战之(12)Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下:JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下:v...

Flume-0.9.4和Hbase-0.96整合

这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbasesink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过程不太复杂,直接做相应...
代码星球 ·2020-09-05

Flume-1.4.0和Hbase-0.96.0整合

在使用Flume的时候,请确保你电脑里面已经搭建好Hadoop、Hbase、Zookeeper以及Flume。本文将以最新版的Hadoop-2.2.0、Hbase-0.96.0、Zookeeper-3.4.5以及Flume-1.4.0为例进行说明。如何安装分布式的Hadoop、Hbase、Zookeeper请参见本博客...
代码星球 ·2020-09-05

hadoop入门到实战(18)优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

1.1、NameNode的元数据备份使用SSD1.2、定时备份NameNode上的元数据  建议每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。1.3、为NameNode指定多个元数据目录  使用dfs.name.dir或者...

Hbase总结(八)Hbase中的Coprocessor

1.起因(WhyHBase Coprocessor)HBase作为列族数据库最常常被人诟病的特性包含:无法轻易建立“二级索引”,难以运行求和、计数、排序等操作。比方,在旧版本号的(<0.92)Hbase中,q=%E7%BB%9F%E8%AE%A1%E6%95%B0%E6%8D%AE%E8%A1%A8&ie...

_00018 Hadoop-2.2.0 + Hbase-0.96.2 + Hive-0.13.1 分布式环境整合,Hadoop-2.X使用HA方式

博文作者:妳那伊抹微笑itdog8地址链接: http://www.itdog8.com(个人链接)博客地址:http://blog.csdn.net/u012185296个性签名:世界上最遥远的距离不是天涯,也不是海角。而是我站在妳的面前,妳却感觉不到我的存在技术方向:Flume+Kafka+...

spark 写hbase

部分情况下:saveAsNewAPIHadoopDataset不能用 大坑,org.apache.hadoop.mapred和org.apache.hadoop.mapreduce两个包的混乱  packagecom.xiaomi.mishell.statusbarimportorg.apache.hadoo...
代码星球 ·2020-08-09
首页上一页...34567...下一页尾页