基于Hadoop 的分布式朴素贝叶斯文本分类
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(60873100);山西财经大学科研资助项目


Distributed Naive Bayes Text Classification Using Hadoop
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    云计算的诞生,有效地解决了海量数据集的存储和分析处理。在云计算实现的开源Hadoop 分布式系统集群上,使用MapReduce 并行编程模型,设计并实现了一种对TFIDF 改进的分布式朴素贝叶斯文本分类算法。实验结果表明,基于Hadoop 框架的分布式朴素贝叶斯文本自动分类器不仅能处理节点失效,同时具有高效性和易扩展性的优势。

    Abstract:

    The emergence of the cloud computing has resolved the difficult of storing the abundant data and analysing data processing effectively. Based on the Hadoop open-source implementation, the cloud computing clusters distributable systems. Meanwhile, the usage of MapReduce parallel programming model has implemented a modified distribution on TFIDF Naive Bayes text classification algorithm. The experimental results show that improved TFIDF has chosen this unique method. The Distributed Hadoop framework has based on Bayes text which classifies automatically. This new achievement can not only handle the failure of nodes, but also possess high reliability and much more scalable advantages.

    参考文献
    相似文献
    引证文献
引用本文

卫洁,石洪波,冀素琴.基于Hadoop 的分布式朴素贝叶斯文本分类.计算机系统应用,2012,21(2):210-213

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2011-05-27
  • 最后修改日期:2011-07-09
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号