基于本体语义树的主题空间向量模型
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Thematic VSM Based on Ontology Semantic Tree
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型。该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系。在此基础上,给出HTML 页面内容与主题相关度的计算方法。在分析URL 的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的PageRank 算法来分析链接的相关度。只有当链接相关度达不到给定的阀值时才会去下载链接对应的页面。这样的URL 相关度计算方法可以大大减少不必要的计算开销, 又可以充分地利用锚文本和链接重要度信息。最后还对那些不确定是否与主题相关的网页进行内容相关度计算,进而最终确定是否应该采集此网页。

    Abstract:

    Based on the traditional search model, combining the concept of ontology, this paper proposes a thematic network crawling model based on ontology semantic tree. Unlike the traditional keyword-based subject description methods, the model can describe a subject with semantic concept tree with which it is simple to describe the semantic relationships between concepts. On this basis, the paper presents a method to calculate the relevance of HTML pages and the topic. When analyzing the relevance of URL, it does not only analyze the relevance of link anchor text and the topic, but also analyzes the relevance of the link with an improved PageRank algorithm. Only when the relevance does not reach a given threshold will it download the page corresponding to the URL. This calculation method can greatly reduce unnecessary computational overhead, and make fully use of anchor text and link importance of information. Finally, it calculates the relevance of a web page which is not sure whether it is related to the topic, and ultimately determines whether this page should be collected or not.

    参考文献
    相似文献
    引证文献
引用本文

卢承山.基于本体语义树的主题空间向量模型.计算机系统应用,2011,20(10):44-48

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2011-02-01
  • 最后修改日期:2011-03-14
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号