分布式最小生成树聚类的设计与实现
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家杰出青年科学基金(60525110);国家973 计划(2007CB307100,2007CB307103);国家自然科学基金(60902051);中央高校基本科研业务费专项资金(BUPT2009RC0505);电子信息产业发展基金


Design and Implementation of Distributed MST Clustering
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    聚类是数据挖掘的主要问题之一,聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中的有价值的信息。近年来数据挖掘在电信领域的应用越来越广泛,但是由于数据量、数据类型、计算复杂度等原因,聚类算法应用的却不多。提出一种新的适合于分布式计算的最小生成树算法,结合适合的相似度度量,设计了一种用于解决海量数据分析的分布式聚类算法,并给出了基于mapreduce 编程模型的分布式实现。

    Abstract:

    Clustering is one of the most important problems in data mining. Clustering algorithm can classify data without any knowledge about it, and find out the information that valuable. Recently, data mining is more and more widely used in the telecommunication area, but because of some problems, such as the size of the data, the type of the data and the complication of the computation, clustering is not used widely. This article gives a MST algorithm that suit for distribute computing. Combining with the method to represent the similarity that suitable for this algorithm, it designs a new clustering algorithm to solve the problem of sea size data analysis. Then, it shows how the algorithm is realized based on the distribute computing model called mapreduce.

    参考文献
    相似文献
    引证文献
引用本文

金欣,王晶,沈奇威.分布式最小生成树聚类的设计与实现.计算机系统应用,2011,20(7):69-75

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2010-11-03
  • 最后修改日期:2010-12-15
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号