摘要:长文本匹配是自然语言处理的一项基础工作, 在文本聚类、新闻推荐等方面有着关键作用. 受语料、篇幅结构、文本表示技术的限制, 长文本匹配工作进展缓慢. 近年提出的BERT模型在文本表示方面具有非常卓越的表现, 而对于BERT来说, 长文本的处理有截断法、分段法和压缩法3种常用方式, 截断法丢失大量文本信息, 分段法保留文本信息却丢失部分语义信息, 压缩法可能丢失部分关键信息. 针对以上问题, 本文对分段法加以改进, 提出一种基于BERT的长文本匹配模型(long text matching model based on BERT, LTM-B), 它以孪生网络为基础, 采用分层的思想将文档切分成多个分段, 使用BERT模型处理文本向量化, 从而得到文档的矩阵表示, 并采用BiLSTM产生位置矩阵, 然后将文档矩阵及其位置矩阵求和输入至Transformer编码器进行特征提取, 最后将两个文档矩阵进行交互、池化、拼接后经由全连接层分类输出匹配结果. 实验表明, 相比于其他方法, LTM-B模型在长文本匹配问题上拥有更好的表现.