粗糙集规则匹配算法及其在文本分类中的应用
作者:
基金项目:

国家自然科学基金(11401031);北京信息科技大学2016-2017学年度“实培计划”项目


Rough Set Rule Matching Method and its Application in Text Categorization
Author:
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献 [20]
  • |
  • 相似文献 [20]
  • | | |
  • 文章评论
    摘要:

    为提高中文文本分类的效果,提出了一种基于粗糙集理论的规则匹配方法.在对文本特征的提取过程中,对CHI统计方法进行了适当的改进,并对特征项的权值进行了缩放和离散化.结合区分矩阵实现关于粗糙集理论的属性约简和规则提取,并采用规则预检验的方法对规则匹配的决策参数进行优化,以提高中文文本分类的效果.实验结果表明改进后的规则匹配方法分类准确率更高,同时在训练数据较少的情况下也可以取得不错的效果.

    Abstract:

    To improve the performance of Chinese text classification, a rule matching method based on rough set theory is proposed in this study. In the extracting process of textual features, the CHI statistical method is improved and the weight of the feature is scaled and discretized. It combines the discriminant matrix to achieve the attribute reduction and rule extraction for rough set theory, and uses rule pre-test method to optimize the decision parameters of rule matching to improve the effect of Chinese text categorization. The experimental results demonstrate that the categorization accuracy of the improved matching method is higher, and in the case of less training data, it can also achieve decent results

    参考文献
    1 Fan W, Bifet A. Mining big data:Current status, and forecast to the future. ACM SIGKDD Explorations Newsletter, 2012, 14(2):1-5.
    2 朱基钗, 高亢, 刘硕. 互联网络发展状况统计. 党政论坛·干部文摘, 2016(9):19.[DOI:10.3969/j.issn.1006-1754.2017.01.016]
    3 Shen YD, Eiter T. Evaluating epistemic negation in answer set programming. Artificial Intelligence, 2016, 237:115-135.[DOI:10.1016/j.artint.2016.04.004]
    4 吴德, 刘三阳, 梁锦锦. 多类文本分类算法GS-SVDD. 计算机科学, 2016, 43(8):190-193.[DOI:10.11896/j.issn.1002-137X.2016.08.038]
    5 程学旗, 兰艳艳. 网络大数据的文本内容分析. 大数据, 2015, (3):62-71.
    6 朱敏玲. 属性序下的粗糙集与KNN相结合的英文文本分类研究. 黑龙江大学自然科学学报, 2015, 32(3):404-408.
    7 Mitra S, Pal SK, Mitra P. Data mining in soft computing framework:A survey. IEEE Transactions on Neural Networks, 2002, 13(1):3-14.[DOI:10.1109/72.977258]
    8 Miao DQ, Duan QG, Zhang HY, et al. Rough set based hybrid algorithm for text classification. Expert Systems with Applications, 2009, 36(5):9168-9174.[DOI:10.1016/j.eswa.2008.12.026]
    9 Grzymala-Busse WJ. Rough set theory with applications to data mining. In:Negoita M, Reusch B, eds. Real World Applications of Computational Intelligence. Berlin, Heidelberg, Germany:Springer, 2005.
    10 Pawlak Z, Skowron A. Rudiments of rough sets. Information Sciences, 2007, 177(1):3-27.[DOI:10.1016/j.ins.2006.06.003]
    11 朱敏玲. 基于粗糙集与向量机的文本分类算法研究. 北京信息科技大学学报, 2015, 30(4):31-34.
    12 马晓玲, 金碧漪, 范并思. 中文文本情感倾向分析研究. 情报资料工作, 2013, 34(1):52-56.
    13 李扬, 潘泉, 杨涛. 基于短文本情感分析的敏感信息识别. 西安交通大学学报, 2016, 50(9):80-84.[DOI:10.7652/xjtuxb201609013]
    14 黄章树, 叶志龙. 基于改进的CHI统计方法在文本分类中的应用. 计算机系统应用, 2016, 25(11):136-140.
    15 梁海龙. 基于邻域粗糙集的属性约简和样本约减算法研究及在文本分类中的应用[硕士学位论文]. 太原:太原理工大学, 2015.
    16 杨传健, 葛浩, 汪志圣. 基于粗糙集的属性约简方法研究综述. 计算机应用研究, 2012, 29(1):16-20.
    17 胡清华, 于达仁, 谢宗霞. 基于邻域粒化和粗糙逼近的数值属性约简. 软件学报, 2008, 19(3):640-649.
    18 段洁, 胡清华, 张灵均, 等. 基于邻域粗糙集的多标记分类特征选择算法. 计算机研究与发展, 2015, 52(1):56-65.[DOI:10.7544/issn1000-1239.2015.20140544]
    19 时希杰, 沈睿芳, 吴育华. 基于粗糙集的两阶段规则提取算法与有效性度量. 计算机工程, 2006, 32(3):60-62.
    20 李湘东, 曹环, 黄莉. 文本分类中训练集相关数量指标的影响研究. 计算机应用研究, 2014, 31(11):3324-3327.[DOI:10.3969/j.issn.1001-3695.2014.11.028]
    引证文献
    网友评论
    网友评论
    分享到微博
    发 布
引用本文

朱敏玲,吴海艋,石磊.粗糙集规则匹配算法及其在文本分类中的应用.计算机系统应用,2018,27(4):131-137

复制
分享
文章指标
  • 点击次数:1792
  • 下载次数: 2500
  • HTML阅读次数: 1467
  • 引用次数: 0
历史
  • 收稿日期:2017-07-16
  • 最后修改日期:2017-07-28
  • 在线发布日期: 2018-04-03
文章二维码
您是第12825878位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号