面向HBase的大规模数据加载研究
作者:

Research on Large Scale Data Loading Based on HBase
Author:
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献 [15]
  • |
  • 相似文献 [20]
  • | | |
  • 文章评论
    摘要:

    分布式数据库HBase在大规模数据加载中较传统关系型数据库有较大的优势但也存在很大的优化空间.基于Hadoop分布式平台搭建HBase环境,并优化自定义数据加载算法.首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活性方面存在不足;进而,提出了自定义并行数据加载算法,并针对集群进行优化.实验结果表明,优化后的自定义并行数据加载方式能充分发挥集群性能,具有较好的加载效率和数据操作能力.

    Abstract:

    Distributed database HBase has the greater advantage than traditional relational database in large scale data loading but there is also a lot of optimization space. We build HBase environment based on the Hadoop distributed platform, and optimize self-defining data loading algorithm. Firstly, this paper analysis the HBase underlying data store, experiments work out that data loading methods of HBase are insufficient in efficiency and flexibility. Furthermore, it proposes self-defining parallel data loading algorithm, and optimizes the cluster. The experimental results show that the optimized self-defining parallel data loading method can give full play to the cluster performance, has good loading efficiency and data operational capacity.

    参考文献
    1 Apache Hadoop. http://hadoop.apache.org.
    2 Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data. ACM Trans. on Computer Systems, 2008, 26(2): 205-218.
    3 Shvachko K, Kuang H, Radia S, et al. The Hadoop Distributed File System. 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST). IEEE Computer Society. 2010. 1-10.
    4 Borthakur D, Gray J, Sarma JS, et al. Apache hadoop goes realtime at Facebook. ACM SIGMOD International Conference on Management of Data, SIGMOD 2011. Athens, Greece. June. 2011. 1071-1080.
    5 George L. HBase: the definitive guide. Sebastopol. USA: O'Reilly Media, 2011.
    6 Stonebraker M. SQL databases vs NoSQL databases. Communications of the ACM, 2010, 53(4): 10-11.
    7 Ghemawat S, Gobioff H, Leung ST. The Google file system. Proc. of the 19th ACM Symp. on Operating Systems Principles. New York. ACM Press. 2003. 29-43
    8 覃熊派,王会举,杜小勇,王珊.大数据分析RDBMS与MapReduce的竞争与共存.软件学报,2012,23(1):32-45.
    9 Lars George著,代志远,刘佳,蒋杰译.HBase权威指南.北京: 人民邮电出版社, 2013,10.
    10 Lam C,韩翼中译.Hadoop实战.北京:北京人民邮电出版社,2011.
    11 姚林,张永库.NnSQL的分布式存储与扩展解决方案.计算机工程,2012,38(6):40-42.
    12 刘星.HBase性能深度分析.程序员,2011,(7):102-104.
    13 田胜利,徐锡山,杨树强,华中杰.针对HBase的MapReduce访问接口的优化.第九届中国通信学会学术年会论文集.2012.
    14 王培建.云计算环境下大规模数据存储技术研究[学位论文].南京:南京邮电大学,2013.
    15 刘鹏.云计算.第二版.北京:电子工业出版社,2011.
    引证文献
    网友评论
    网友评论
    分享到微博
    发 布
引用本文

贺正红,周娅,文缔尧,吴清霞.面向HBase的大规模数据加载研究.计算机系统应用,2016,25(6):231-237

复制
分享
文章指标
  • 点击次数:1764
  • 下载次数: 2521
  • HTML阅读次数: 0
  • 引用次数: 0
历史
  • 收稿日期:2015-10-19
  • 最后修改日期:2015-11-25
  • 在线发布日期: 2016-06-14
文章二维码
您是第10650910位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号