为了适应Internet信息量的快速增长,搜索引擎采用分布式技术搜集信息。采用分布式搜集技术的具体应用中主要存在两个关键问题:URL匹配和系统负载平衡。针对现有的几种分布式信息搜集系统的设计中存在的一些不足,提出了利用URL分级散列进行定位和匹配的方法。根据中文网络信息的特点,分析了几个对字符串散列较好的函数,设计了两种URL散列函数,应用于分布式中文信息搜集系统中。实验表明,系统在减少URL匹配的资源消耗和提高系统负载的均衡性方面有很好的效果。
李村合,何淑庆,张培颖.两种适用于中文信息搜集的URL散列函数的研究.计算机系统应用,2006,15(7):42-44
京公网安备 11040202500063号