Web信息抽取及知识表示系统的研究与实现

AIPUB归智期刊联盟

微信公众号

网站二维码

2025年4月25日 21:14 星期五

首页 > 过刊浏览>2010年第19卷第9期 >1-4

PDF HTML阅读 XML下载导出引用引用提醒

Web信息抽取及知识表示系统的研究与实现
DOI:
                        
                    
CSTR:
                        
                    
作者:
                        谭守标谭守标
安徽大学 电子科学与技术学院 安徽 合肥 230039
在期刊界中查找
在百度中查找
在本站中查找
徐超徐超
安徽大学 电子科学与技术学院 安徽 合肥 230039
在期刊界中查找
在百度中查找
在本站中查找
江元江元
安徽大学 电子科学与技术学院 安徽 合肥 230039
在期刊界中查找
在百度中查找
在本站中查找
宁仁霞宁仁霞
黄山学院 电子信息工程系 安徽 黄山 245021
在期刊界中查找
在百度中查找
在本站中查找

                    
作者单位:
作者简介:
通讯作者:
中图分类号:
基金项目:安徽省教育厅自然科学基金(2005KJ004ZD)

Research and Realization of a Web Information Extraction and Knowledge Presentation System

Author:

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取，进行预处理后转换为XML文档，采用基于PAT-array的模式发现算法自动发现重复模式，结合基于本体的关键词库自动识别页面数据显示结构模型，利用XML的对象-关系映射技术将数据存入知识数据库，由此实现Web数据自动抽取。同时，利用知识数据库已有知识从互联网抽取新知识，达到知识数据库的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。

关键词:Web信息提取;知识表示;数据密集型Web页面;基于本体的关键词库

Abstract:

The Web Information Extraction and Knowledge Presentation System is proposed to extract information from data intensive web pages. It downloads dynamic web pages, based on a knowledge database, changes them to XML documents after preprocessing, finds repeated patterns from them, by using a PAT-array based Pattern Discovery Algorithm, recognizes their data display structure models, automatically based on the repeated patterns and an ontology-based keyword library, and then extracts the data and stores them in the knowledge database with the object-relational mapping technology of XML. Through these steps, web data is extracted automatically, and the knowledge database is also expanded automatically. Experiments on the traffic information auto-extraction and mixed traffic travel schemes auto-creation system showed that the system has high precision and is adaptive to web pages in different domains with different structures.

Key words:web information extraction; knowledge presentation; data intensive web pages; ontology-based keyword library

引用本文

谭守标,徐超,江元,宁仁霞. Web信息抽取及知识表示系统的研究与实现.计算机系统应用,2010,19(9):1-4

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:2010-01-06
最后修改日期:2010-02-26
录用日期:
在线发布日期:
出版日期:

微信公众号

网站二维码

引用本文

分享

文章指标

历史

文章二维码

微信公众号

网站二维码

引用本文

分享

微信扫一扫：分享

文章指标

历史

文章二维码