基于欠采样支持向量机不平衡的网页分类系统
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Realization of Web Page Classificationn System Based on Under-Sampling Support Vector Machine
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类已经引起了人们的高度重视,尤其是在互联无技术迅速发展的阶段,网页分类这领域已成为热点. 与传统的分类方法相比,支持向量机具有高维、小样本、适应性强的特点,能够非常有效率的解决网页分类问题,但是不平衡数据的分类这一方面,存在着分类不精确的问题. 所以本文提出了新的解决不平衡数据样本策略,便是将欠采样策略与传统的支持向量机结合起来,在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,最后结合SMO(Senquential Minimal Optimization)算法改进分类器,提高了分类的准确性.

    Abstract:

    In this era of information explosion, how to handle these vast amounts of data and how to classify the data effectively has attracted much attention, especially in the stage of rapid development of Internet technology free, the field of web classification has become a hot spot. Compared with the traditional classification methods, support vector machine has the characters of high-dimensional, small sample size, strong adaptability, and can be very effective to solve the problem of web page classification. But in the field of classification of imbalanced data, there is a problem of inaccurate classification. Therefore, this paper proposes a new strategy to solve the imbalance data samples, that is, combining the under-sampling strategy with the traditional support vector machines to increase the number of samples set in the minority class and to reduce the concentrated noise data in the majority class, so that imbalanced sample set tends to be balanced. Finally SMO algorithm is used to improve the accuracy of classification.

    参考文献
    相似文献
    引证文献
引用本文

李村合,唐磊.基于欠采样支持向量机不平衡的网页分类系统.计算机系统应用,2017,26(4):230-235

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2016-07-09
  • 最后修改日期:2016-08-08
  • 录用日期:
  • 在线发布日期: 2017-04-11
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号