###
DOI:
计算机系统应用英文版:2010,19(10):195-198
本文二维码信息
码上扫一扫!
一种基于C4.5决策树的Web页面分类算法
(1.武汉职业技术学院 计算机学院 湖北 武汉 430074;2.湖北大学 知行学院 湖北 武汉 430011)
A C4.5 Decision Tree Based Algorithm for Web Pages Categorization
摘要
图/表
参考文献
相似文献
本文已被:浏览 2708次   下载 4650
Received:March 07, 2010    Revised:April 09, 2010
中文摘要: WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:分类精度高,分类速度快等。主要研究了运用C4.5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4.5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。
Abstract:Web text categorization can be applied to many domains such as information retrieval, news categorization, etc. Decision tree algorithm is a simple method for categorization and has been used extensively. This paper investigates the basic method and process to build a web classifier by means of C4.5 decision tree, which has various merits such as high categorization precision, high categorization speed, etc. Moreover, this paper proposes a C4.5 decision tree based frame of web pages classifier, and implements it on a web crawler. The experimental results show that this algorithm is highly effective.
文章编号:     中图分类号:    文献标志码:
基金项目:
引用文本:
曹薇,张乃洲.一种基于C4.5决策树的Web页面分类算法.计算机系统应用,2010,19(10):195-198
CAO Wei,ZHANG Nai-Zhou.A C4.5 Decision Tree Based Algorithm for Web Pages Categorization.COMPUTER SYSTEMS APPLICATIONS,2010,19(10):195-198