基于逆类别注意力机制的电商文本分类
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

武汉科技大学大学生创新创业训练计划(18ZRA078); 国家社会科学基金重大计划(11&ZD189)


E-Commerce Text Classification Based on Reverse Category Attention Mechanism
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    电商数据所属类别对于分析电商数据有重要意义, 基于人力的分类无法适应如今海量的电商数据, 基于传统算法模型的分类难以提取有价值的人工特征. 本文采用BiLSTM模型并且引入注意力机制, 将其应用于电商数据分类中. 该模型包括Embedding层、BiLSTM层、注意力机制层和输出层. Embedding层加载Word2Vec开源工具训练得到的词向量, BiLSTM层捕捉每个词语的上下文信息, 注意力机制层为每个词语分配权重, 合成新的样本特征. 实验表明, 基于逆类别率的注意力机制在电商数据的分类准确率达到91.93%, 与不加注意力机制的BiLSTM模型和其他引入的注意力机制相比, 均有不同程度的提高. 此模型电商数据分类中有良好的效果, 为注意力机制的引入提供了新的思考方向.

    Abstract:

    The category of e-commerce data is of great significance for its analysis. The classification based on human resources cannot adapt to the massive e-commerce data nowadays, and the classification based on traditional algorithm models can hardly extract valuable artificial features. In this study, the BiLSTM model integrated with an attention mechanism is introduced to classify e-commerce data. The model includes embedding layer, BiLTM layer, attention mechanism layer, and output layer. The embedding layer loads the word vector trained by Word2Vec; the BiLSTM layer captures the context of each word; the attention mechanism layer allocates weights for each word to synthesize new sample features. The experimental results show that the classification accuracy of the attention mechanism based on the inverse class frequency reaches 91.93%, which is improved compared with the BiLSTM model without the attention mechanism and other attention mechanisms introduced. This model has a good effect in the classification of e-commerce data and points out a new thinking direction for the introduction of attention mechanisms.

    参考文献
    相似文献
    引证文献
引用本文

王维,胡慧君,刘茂福.基于逆类别注意力机制的电商文本分类.计算机系统应用,2021,30(5):247-252

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-09-03
  • 最后修改日期:2020-09-25
  • 录用日期:
  • 在线发布日期: 2021-05-06
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号