基于JavaScript 切片的AJAX 框架网络爬虫技术研究
作者:
基金项目:

中国科学院知识创新工程重要方向项目(KGCX2-SW-511)


Web Crawler Technology of AJAX Frame Based on JavaScript Slicing
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献 [1]
  • |
  • 相似文献 [20]
  • |
  • 引证文献
  • | |
  • 文章评论
    摘要:

    自Jesse James Garrett 提出了AJAX 概念以来,由于AJAX 在提升用户交互体验的同时,又不需要在客户端安装插件。因此,一经提出就引起了互联网领域的广泛关注。但目前的网络爬虫技术在AJAX框架的URL 解析过程中存在着不能够识别事件触发顺序等问题,导致大量数据不能被搜索引擎有效检索。本文针对此问题,通过研究基于对象的程序切片算法,以及脚本执行引擎与切片模块的互操作,最终解决AJAX 框架中URL 提取以及异步JavaScript 网络爬虫系统的关键技术问题。

    参考文献
    1 Jesse James Garrett. Ajax: A New Approach to Web Applications.http://www.adaptivepath.com/ideas/essays/archives/000385.php2005. 2 Alvarez M, Pan A, Raposo J, Vina A. Client-Side Deep Web Data Extraction ext ended paper. http://www.tic.udc.es/~mad/publications/csdeepweb_extended.pdf. 3 王映,于满泉,李盛韬,王斌,余智华. JavaScript 引擎在动态网页采集技术中的应用.计算机应用, 2004,24(2):33-36.4 张勇翔,李必信,郑国梁.程序切片技术的研究与应用.计算机科学, 2000,27(1):31-35. 5 Steindl C. Program slicing for object-oriented programmminglanguages [PhD Thesis]. Johannes Kepler University Linz.1999. 6 陆波.程序切片技术在程序理解中的应用研究[硕士学位论文].济南:山东大学, 2004. 7 Weiser M. Program slicing. IEEE Transactions on Software Engineering, July1984. 8 Ottenstein KJ, Ottenstei LM. The program dependence graph in a softwaredevelopment environment. Proceedings of the ACM SIGSOFT/ SIGP LAN software Engineering Sysposium on Practical Software Development Environments, ACM SIGPLAN Notices.1984,19(5). 9 董志宏.面向对象程序的波动分析及其在程序切片 中的应用[硕士学位论文].南京:南京大学, 2001.
    网友评论
    网友评论
    分享到微博
    发 布
引用本文

曾伟辉,李 淼.基于JavaScript 切片的AJAX 框架网络爬虫技术研究.计算机系统应用,2009,18(7):169-171

复制
分享
文章指标
  • 点击次数:1850
  • 下载次数: 4065
  • HTML阅读次数: 0
  • 引用次数: 0
历史
  • 收稿日期:2008-10-27
文章二维码
您是第12478606位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号