资讯类新闻套图系统
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

“核高基”重大专项(2010ZX01045-001-006)


Web Information Extraction and Knowledge Presentation System
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    考虑到图片具有对事件诠释力强,传播便利的特点,研究了从大量数据密集的新闻Web页面中自动提取数据,并组织成套图结构展现给用户. 基于页面模板实现动态页面抽取和解析,处理转换为对应的套图数据结构. 基于余弦相关性对来自不同网站的新闻套图数据进行去重,并根据相应的标准,为数据集进行评分排序. 考虑巨大的新闻数据和用户数量,本系统基于hadoop分布式平台,满足系统的高可扩展性. 本文将详细描述我们的系统设计和实现,并公布在百度资讯图片栏目上的运行结果.

    Abstract:

    Considering the picture has the futures that a strong interpretation of events and convenient disseminating, this paper studies extraction of data from a large number of news web pages, and organizational structure chart presented to the users. It achieves dynamic pages based on page template extraction and analysis, processing converted to the corresponding sets of datastructure. Based on the news cosine correlation graph data sets from different sites are differentiated, and in accordance with the appropriate standards for data collection to score sorted. This system is based on hadoop distributed platform, considering the large number of users and imgsets. This paper will describe the design and implementation of our system in detail, and report the results of running the system on Baidu news image column.

    参考文献
    相似文献
    引证文献
引用本文

江浩亮,左春.资讯类新闻套图系统.计算机系统应用,2014,23(10):57-62

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2014-02-28
  • 最后修改日期:2014-03-25
  • 录用日期:
  • 在线发布日期: 2014-10-17
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号