摘要:XML数据越来越广泛地被用于信息交换与集成中, 其数据质量问题引起了人们的关注. 解决由数据质量引发的问题, 实体识别技术非常关键. 为了克服现有方法的不足, 在海量XML数据上进行高效的重复对象检测, 以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法, 它将所有标签节点统称为属性, 用实体来描述属性, 通过属性的比较, 快速地找到在某些属性上相同的所有实体对象, 并利用Hadoop应用框架处理海量数据的优势实现并行处理. 经过试验验证该方法良好的扩展性, 伸缩性和高效性.