本文介绍了Web结构挖掘的基本原理,详细分析Google的PageRank算法,针对其中的缺陷进行改进,提出了一种集链接、时间、网页内容为一体的PageRank改进算法CTPR,目的是将内容与搜索内容相关度高的、比较权威的、新的网页排列在搜索结果的最前面。网页的等级由CTPR值决定,CTPR值由两个部分组成,一个是传统PR算法的值;另一个是网页自评值,它与内容权值成正比,与网页的内容的新旧程度成反比。最后,对此算法进行效果演示,验证算法的有效性。
钱杰,张健,高乐. Web结构挖掘中的PageRank算法改进.计算机系统应用,2008,17(7):42-45
京公网安备 11040202500063号