摘要:自然语言处理中的文档分类任务需要模型从低层级词向量中抽取高层级特征. 通常, 深度神经网络的特征抽取会利用文档中所有词语, 这种做法不能很好适应内容较长的文档. 此外, 训练深度神经网络需要大量标记数据, 在弱监督情况下往往不能取得良好效果. 为迎接这些挑战, 本研究提出应对弱监督长文档分类的方法. 一方面, 利用少量种子信息生成伪文档以增强训练数据, 应对缺乏标记数据造成的精度难以提升的局面. 另一方面, 使用循环局部注意力学习, 仅基于若干文档片段抽取出摘要特征, 就足以支撑后续类别预测, 提高模型的速度和精度. 实验表明, 本研究提出的伪文档生成模型确实能够增强训练数据, 对预测精度的提升在弱监督情况下尤为显著; 同时, 基于局部注意力机制的长文档分类模型在预测精度上显著高于基准模型, 处理速度也表现优异, 具有实际应用价值.