摘要:针对当下层级文本分类模型尚未充分利用层级实例的标签信息以及缺乏对类别分布不平衡的处理这两方面问题, 本文提出一种面向标签共现和长尾分布的层级文本分类方法(hierarchical text classification for label co-occurrence and long-tail distribution, LC-LTD), 对基于共享标签的文本全局语义和面向长尾分布的平衡损失函数进行研究. 首先, 设计一种基于共享标签的对比学习目标, 使具有更多共享标签的文本表示在特征空间中的语义距离更近, 引导模型生成具有判别性的语义表征; 其次, 引入分布平衡损失函数替换二进制交叉熵损失, 缓解层级分类固有的长尾分布问题, 提高模型的泛化能力. 在WOS、BGC两个公开数据集上将LC-LTD与当前多个主流模型进行比较, 结果表明所提方法具有更好的分类性能, 更适合处理层级文本分类任务.