摘要:相似度匹配是自然语言处理领域一个重要分支, 也是问答系统抽取答案的重要途径之一. 本文提出了一种基于正负样本和Bi-LSTM的文本相似度匹配模型, 该模型首先为了提升问题和正确答案之间的相似度, 构建正负样本问答对用于模型训练; 其次为了解决分词错误引起的实验误差, 采用双层嵌入词向量方法进行预训练; 再次为了解决注意力机制导致的特征向量向后偏移的问题, 在特征提取之前, 采取内部注意力机制方法; 然后为了保留重要的时序特性, 采用Bi-LSTM神经网络进行数据训练; 最后为了能在语义层次上计算相似度, 提出一种包含语义信息的相似度计算函数. 将本文提出的文本相似度匹配模型在公共数据集DuReader上进行了仿真实验, 并和其他模型进行对比分析, 实验结果表明, 提出的模型不仅准确率高且鲁棒性好, top-1准确率达到78.34%.