摘要:在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型。该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系。在此基础上,给出HTML 页面内容与主题相关度的计算方法。在分析URL 的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的PageRank 算法来分析链接的相关度。只有当链接相关度达不到给定的阀值时才会去下载链接对应的页面。这样的URL 相关度计算方法可以大大减少不必要的计算开销, 又可以充分地利用锚文本和链接重要度信息。最后还对那些不确定是否与主题相关的网页进行内容相关度计算,进而最终确定是否应该采集此网页。