HBase主题的文章列表，还有HBase的技术要点_第5页

大数据集群运维（1）Hadoop + Hive + HBase + Kylin伪分布式安装

问题导读1. Centos7如何安装配置？2. linux网络配置如何进行？3. linux环境下java 如何安装？4. linux环境下SSH免密码登录如何配置？5. linux环境下Hadoop2.7 如何安装？6. linux环境下...

代码星球 ·2020-09-19

Couchbase 环境搭建与使用（C#）

CouchbaseCouchbaseServer（前身是Membase）是一个分布式的面向文档的NoSQL数据库管理系统，该系统联合了CouchDB的简单和可靠以及Memcached的高性能。安装下载相应的版本文件http://www.couchbase.com/nosql-databases/downloads?gt...

代码星球 ·2020-09-06

HBase Rowkey 设计指南

RowKey到底是什么我们常说看一张HBase表设计的好不好，就看它的RowKey设计的好不好。可见RowKey在HBase中的地位。那么RowKey到底是什么？RowKey的特点如下：类似于MySQL、Oracle中的主键，用于标示唯一的行；完全是由用户指定的一串不重复的字符串；HBase中的...

代码星球 ·2020-09-05

HBase中加盐（Salting）之后的表如何读取：协处理器文章

我们介绍了避免数据斑点的三种比较常见方法：加盐-盐腌哈希-散列反转-反转其中在加盐（Salting）的方法里面是这么描述的：给Rowkey分配一个随机指针以使其和之前排序不同。但是在Rowkey前面加了随机重叠，那么我们怎么将这些数据替换来呢？我将分三篇文章来介绍如何读取加盐之后的表，其中每篇文章提供一种方法，主要包括...

代码星球 ·2020-09-05

sparkcore入门到实战之（14）HBase 中加盐（Salting）之后的表如何读取

我们知道，HBase 为我们提供了hbase-mapreduce工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下：ThismodulecontainsimplementationsofInputFormat,O...

代码星球 ·2020-09-05

Spark SQL入门到实战之（5）使用 Spark SQL 高效地读写 HBase

Apache Spark 和Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据，而目前Spark内置是支持很多数据源的，其中就包括了HBase，但是内置的读取数据源还是使...

代码星球 ·2020-09-05

sparkcore入门到实战之（13）在Spark上通过BulkLoad快速将海量数据导入到Hbase

本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用BulkLoadAPI。使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中，...

代码星球 ·2020-09-05

Hive和HBase整合用户指南

本文讲解的Hive和HBase整合意思是使用Hive读取Hbase中的数据。我们可以使用HQL语句在HBase表上进行查询、插入操作；甚至是进行Join和Union等复杂查询。此功能是从Hive 0.6.0开始引入的，详情可以参见HIVE-705。Hive与HBase整合的实现是利用两者本身对外的API接口互...

代码星球 ·2020-09-05

sparkcore入门到实战之（12）Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下：v...

代码星球 ·2020-09-05

Flume-0.9.4和Hbase-0.96整合

这几天由于项目的需要，需要将Flume收集到的日志插入到Hbase中，有人说，这不很简单么？Flume里面自带了Hbasesink，可以直接调用啊，还用说么？是的，我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合，从文章中就看出整个过程不太复杂，直接做相应...

代码星球 ·2020-09-05

Flume-1.4.0和Hbase-0.96.0整合

在使用Flume的时候，请确保你电脑里面已经搭建好Hadoop、Hbase、Zookeeper以及Flume。本文将以最新版的Hadoop-2.2.0、Hbase-0.96.0、Zookeeper-3.4.5以及Flume-1.4.0为例进行说明。如何安装分布式的Hadoop、Hbase、Zookeeper请参见本博客...

代码星球 ·2020-09-05

hadoop入门到实战（18）优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

1.1、NameNode的元数据备份使用SSD1.2、定时备份NameNode上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。1.3、为NameNode指定多个元数据目录使用dfs.name.dir或者...

代码星球 ·2020-09-05

Hbase总结（八）Hbase中的Coprocessor

1.起因(WhyHBase Coprocessor)HBase作为列族数据库最常常被人诟病的特性包含：无法轻易建立“二级索引”，难以运行求和、计数、排序等操作。比方，在旧版本号的(<0.92)Hbase中，q=%E7%BB%9F%E8%AE%A1%E6%95%B0%E6%8D%AE%E8%A1%A8&ie...

代码星球 ·2020-08-28

_00018 Hadoop-2.2.0 + Hbase-0.96.2 + Hive-0.13.1 分布式环境整合，Hadoop-2.X使用HA方式

博文作者：妳那伊抹微笑itdog8地址链接: http://www.itdog8.com（个人链接）博客地址：http://blog.csdn.net/u012185296个性签名：世界上最遥远的距离不是天涯，也不是海角。而是我站在妳的面前，妳却感觉不到我的存在技术方向：Flume+Kafka+...

代码星球 ·2020-08-25

spark 写hbase

部分情况下：saveAsNewAPIHadoopDataset不能用大坑，org.apache.hadoop.mapred和org.apache.hadoop.mapreduce两个包的混乱　　packagecom.xiaomi.mishell.statusbarimportorg.apache.hadoo...

代码星球 ·2020-08-09