本文已被:浏览 1478次 下载 3010次
中文摘要: 网页净化算法的目的是除去影响搜索引擎获取网页主题的噪音.本文提出一种基于局部语义的网页净化算法.算法遍历转化成DOM树后的网页,通过计算相邻节点的相似度,确定局部语义节点范围,然后提取局部语义信息,建立局部语义树模型,最后除去与网页主体的相关性低于预定阈值的局部语义节点,达到网页净化的目的.实验表明算法是有效的.
中文关键词: 局部语义 网页净化 本地噪音
Abstract:
keywords:
文章编号: 中图分类号: 文献标志码:
基金项目:
Author Name | Affiliation |
谢华 | 中南大学信息科学与工程学院 湖南长沙 410083 |
刘卫国 | 中南大学信息科学与工程学院 湖南长沙 410083 |
Author Name | Affiliation |
谢华 | 中南大学信息科学与工程学院 湖南长沙 410083 |
刘卫国 | 中南大学信息科学与工程学院 湖南长沙 410083 |
引用文本:
谢华,刘卫国.基于局部语义的网页净化算法.计算机系统应用,2007,16(5):25-28
.Reducing Web Noise Algorithm Based on Partly Semantic.COMPUTER SYSTEMS APPLICATIONS,2007,16(5):25-28
谢华,刘卫国.基于局部语义的网页净化算法.计算机系统应用,2007,16(5):25-28
.Reducing Web Noise Algorithm Based on Partly Semantic.COMPUTER SYSTEMS APPLICATIONS,2007,16(5):25-28