博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hbase 如何导入到mysql_hbase 的数据 怎么导出到 一个文件或者mysql里面
阅读量:5322 次
发布时间:2019-06-14

本文共 1267 字,大约阅读时间需要 4 分钟。

将数据导入HBase中有如下几种方式:

使用HBase的API中的Put方法

使用HBase 的bulk load 工具

使用定制的MapReduce Job方式

使用HBase的API中的Put是最直接的方法,用法也很容易学习。但针对大部分情况,它并非都是最高效的方式。当需要将海量数据在规定时间内载入HBase中时,效率问题体现得尤为明显。待处理的数据量一般都是巨大的,这也许是为何我们选择了HBase而不是其他数据库的原因。在项目开始之前,你就该思考如何将所有能够很好的将数据转移进HBase,否则之后可能面临严重的性能问题。

HBase有一个名为 bulk load的功能支持将海量数据高效地装载入HBase中。Bulk load是通过一个MapReduce Job来实现的,通过Job直接生成一个HBase的内部HFile格式文件来形成一个特殊的HBase数据表,然后直接将数据文件加载到运行的集群中。使用bulk load功能最简单的方式就是使用importtsv 工具。importtsv 是从TSV文件直接加载内容至HBase的一个内置工具。它通过运行一个MapReduce Job,将数据从TSV文件中直接写入HBase的表或者写入一个HBase的自有格式数据文件。

尽管importtsv 工具在需要将文本数据导入HBase的时候十分有用,但是有一些情况,比如导入其他格式的数据,你会希望使用编程来生成数据,而MapReduce是处理海量数据最有效的方式。这可能也是HBase中加载海量数据唯一最可行的方法了。当然我们可以使用MapReduce向HBase导入数据,但海量的数据集会使得MapReduce Job也变得很繁重。若处理不当,则可能使得MapReduce的job运行时的吞吐量很小。

在HBase中数据合并是一项频繁执行写操作任务,除非我们能够生成HBase的内部数据文件,并且直接加载。这样尽管HBase的写入速度一直很快,但是若合并过程没有合适的配置,也有可能造成写操作时常被阻塞。写操作很重的任务可能引起的另一个问题就是将数据写入了相同的族群服务器(region server),这种情况常出现在将海量数据导入到一个新建的HBase中。一旦数据集中在相同的服务器,整个集群就变得不平衡,并且写速度会显著的降低。我们将会在本文中致力于解决这些问题。我们将从一个简单的任务开始,使用API中的Put方法将MySQL中的数据导入HBase。接着我们会描述如何使用 importtsv 和 bulk load将TSV数据文件导入HBase。我们也会有一个MapReduce样例展示如何使用其他数据文件格式来导入数据。上述方式都包括将数据直接写入HBase中,以及在HDFS中直接写入HFile类型文件。本文中最后一节解释在向HBase导入数据之前如何构建好集群。本文代码均是以Java编写,我们假设您具有基本Java知识,所以我们将略过如何编译与打包文中的Java示例代码,但我们会在示例源码中进行注释。

转载地址:http://eihhv.baihongyu.com/

你可能感兴趣的文章
组合数学 UVa 11538 Chess Queen
查看>>
uva 10004 - Bicoloring
查看>>
[软件共享]将数据库中的数据导出为SQL脚本
查看>>
amCharts图表中的JavaScript中文注释引起的浏览器兼容性问题
查看>>
Js脚本选取iframe中的元素
查看>>
HTML<head></head>中标签的含义
查看>>
系统调用system_call处理过程
查看>>
oracle job
查看>>
redis单机版安装配置
查看>>
Redis常用命令
查看>>
类图的6大关系详解
查看>>
JavaScript的extend函数
查看>>
用easy_install時出現unknown url type: https问题
查看>>
无重复字符的最长子串
查看>>
A Famous Music Composer
查看>>
Jquery实现图片瀑布流思路-简单版
查看>>
【病因】 深入剖析强迫症的病因
查看>>
sysfs 文件系统的建立
查看>>
Arria10中的IOPLL与fPLL
查看>>
Delphi 停靠技术的应用
查看>>