计算机系统应用  2024, Vol. 33 Issue (4): 246-253   PDF    
基于指针生成网络和扩展Transformer的多属性可控文本摘要模型
冼广铭, 李凡龙, 郑兆明     
华南师范大学 软件学院, 佛山 528225
摘要:可控文本摘要模型可以生成符合用户偏好的摘要. 之前的摘要模型侧重于单独控制某个属性, 而不是多个属性的组合. 传统的Seq2Seq多属性可控文本摘要模型在满足多个控制属性时, 存在无法整合所有控制属性、无法准确再现文本中关键信息和无法处理单词表外单词等问题. 为此, 本文提出了一种基于扩展Transformer和指针生成网络(pointer generator network, PGN)的模型. 模型中的扩展Transformer将Transformer单编码器-单解码器的模型形式扩展成具有双重文本语义信息提取的双编码器和单个可融合指导信号特征的解码器形式. 然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表生成新的摘要信息, 以解决摘要任务中常出现的OOV (out of vocabulary)问题. 此外, 为高效完成位置信息编码, 模型在注意力层中使用相对位置表示来引入文本的序列信息. 模型可以用于控制摘要的许多重要属性, 包括长度、主题和具体性等. 通过在公开数据集MACSum上的实验表明, 相较以往方法, 本文提出的模型在确保摘要质量的同时, 更加符合用户给定的属性要求.
关键词: 深度学习    可控文本摘要    Transformer模型    相对位置表示    指针生成网络    
Multi-attribute Controllable Text Summary Model Based on Pointer Generator Network and Extended Transformer
XIAN Guang-Ming, LI Fan-Long, ZHENG Zhao-Ming     
School of Software, South China Normal University, Foshan 528225, China
Abstract: The controllable text summary models can generate summaries that conform to user preferences. Previous summary models focus on controlling a certain attribute alone, rather than the combination of multiple attributes. When multiple control attributes are satisfied, the traditional Seq2Seq multi-attribute controllable text summary model cannot integrate all control attributes, accurately reproduce key information in the texts, and handle words outside the word lists. Therefore, this study proposes a model based on the extended Transformer and pointer generator network (PGN). The extended Transformer in the model extends the Transformer single encoder-single decoder model form into a dual encoder with dual text semantic information extraction and a single decoder form that can fuse guidance signal features. Then the PGN model is employed to select the source from the source copy words in the text or adopt vocabulary to generate new summary information to solve the OOV (out of vocabulary) problem that often occurs in summary tasks. Additionally, to efficiently complete position information encoding, the model utilizes relative position representation in the attention layer to introduce sequence information of the texts. The model can be leveraged to control many important summary attributes, including lengths, topics, and specificity. Experiments on the public dataset MACSum show that compared with previous methods, the proposed model performs better at ensuring the summary quality. At the same time, it is more in line with the attribute requirements given by users.
Key words: deep learning     controlled text summary     Transformer model     relative position representation     pointer generator network (PGN)    

随着近年来互联网的快速发展, 互联网产生的文本数据越来越多, 文本信息过载问题日益严重, 导致用户需要花费大量时间去获取自己想要的信息. 如何从大量数据中提取出有效的关键信息成为近年来的一个研究热点. 文本摘要技术旨在将大文档的信息压缩成包含关键信息的文档, 从而帮助用户更快、更容易地消化文档中的核心信息. 然而, 不同的用户对于同一篇文章的摘要有不同喜好, 例如主题、摘要长度和具体性等. 因此, 生成个性化的摘要以满足不同用户的偏好也是摘要模型应该具备的能力.

按照输出摘要类型可以将摘要分为抽取式摘要和生成式摘要. 抽取式摘要从最初的文本中抽取关键句和关键词组成摘要, 这种方法生成的摘要内容全部来源于原文. 该方法天生具有语法错误率低的效果. 生成式可以自由生成摘要并能够生成新颖的单词和句子. 与抽取式摘要相比, 生成式摘要更加的灵活多变, 更可能产生流畅和连贯的摘要.

伴随AI的快速发展, 神经网络模型在各个领域都取得了显著的成就. 在自然语言处理领域, Seq2Seq模型结合一些其他网络或注意力机制, 在该领域表现出色. 这种模型已经在机器翻译、图像解释等领域取得了巨大的成功, 且在文本摘要领域也有不错的效果.

然而, 传统Seq2Seq模型在可控文本摘要任务中面临着3个问题: 首先, 大多数可控文本摘要方法集中于单属性控制, 对于多属性控制方法的研究较为有限; 其次, 多属性可控文本摘要方法在进行多属性控制时, 会出现控制能力下降, 无法合理兼顾所有控制属性的问题; 最后, 传统模型无法处理单词表外的单词.

为应对上述问题, 本文提出了一种基于扩展Transformer和指针生成网络的多要素可控文本摘要模型. 本论文的创新之处包括: 1)使用扩展后的Transformer接收源文本和指导信号, 保证在输出摘要的时候通过交互注意力同时去关注源文档和指导信号, 从而使摘要更加忠诚于指导信号. 2)引入指针生成网络, 使模型具有从源文档中复制文本的能力. 3)在注意力层中使用相对位置编码, 高效生成具有上下文语义信息的单词嵌入向量. 通过与其他几个模型的对比实验表明, 本文提出的模型在确保ROUGE指标不下降, 甚至有所提升的前提下, 可以生成更加满足用户偏好的个性化摘要.

1 相关工作

在2014年, Sutslever等人[1]提出了一种广泛影响的序列到序列模型(sequence-to-sequence), 成功实现了英-法互译的文本语言任务. 2015年Bahdanau等人[2]将Seq2Seq模型与注意力机制结合, 这一组合在翻译任务上取得了巨大的成功. 这种将Seq2Seq模型与注意力机制的结合的方法为后来的研究者提供了巨大的启发. 同年, Luong等人[3]打破了Seq2Seq的单任务框架, 构建了一个序列到序列的多任务的框架. 2016年Chopra等人[4]在Bahdanau等人的模型基础上进行改进, 将其应用于文本摘要任务. Nallapati等人[5]提出带有注意力的解码器编码器循环神经(RNN)网络, 该模型的编码器和解码器完全由RNN神经网络组成, 在当时的文本摘要任务上达到了state-of-the-art的表现. 2017年, See等人[6]基于指针网络提出了指针生成网络模型, 该模型用于解决文本摘要任务中的未登录词问题. Vaswani等人[7]提出了一个完全摒弃RNN和CNN等网络的结构模型Transformer, 该模型完全依赖注意力机制来实现翻译任务, 并取得了出色的效果. 这一成功使得注意力机制成为一个研究热点. 随后, 出现了一系列预训练模型, 如BART[8]和GPT[9], 它们在微调之后可以很好完成自然语言处理领域的任务. Transformer的核心结构是self-attention机制, 但由于其无法对输入token的相对位置或绝对位置信息进行建模. 因此, 通常需要额外添加位置嵌入(positional embedding)来引入位置信息. 2018年, Shaw等人[10]通过在自注意力机制中引入token之间的相对位置向量, 构建输入序列的连接图, 高效地完成了位置信息的编码, 提高了模型的性能.

过去的文本摘要系统生成的摘要不受用户控制, 不同的用户生成同一份摘要, 这无法满足用户的个性化偏好. 因此, 生成可定制的个性化摘要已经成为摘要系统的必备功能. 2019年, Makino等人[11]通过一种全局优化的方法实现了摘要长度的可控性. 2020年, He等人[12]通过提示(prompt)方法实现了实体控制的生成摘要. 2021年, Cao等人[13]提出了预训练阶段的摘要生成解码器可以用于实现摘要风格控制的两种方法. 2022年, Zhong等人[14]实现了一个无监督的多粒度框架GRANUSUM, 用于控制生成摘要的粒度. 这些研究通常集中在单一属性的控制方面. 值得注意的是, Chan等人[15]在2021年通过受限马尔可夫决策过程的方法来对不同属性进行可控摘要生成, 但是否可以实现多属性的控制仍然是一个未知数. Goyal等人[16]通过混合多个解码器来研究多特征控制, 但他们仅在解码器上进行了改进, 使模型控制能力的提升比较有限. Dou等人[17]通过混合多个编码器的方法实现了多摘要多个属性的单独控制. 过去的研究大多过于专注于单个特定属性的控制, 而控制多个属性仍未得到充分探索. 数据集方面, 现有工作都是在改编自一般摘要数据集的伪数据集上进行评估. 为了解决这个问题, 2022年Zhang等人[18]提出了第1个多属性控制的人工注释的摘要数据集, 填补了多属性控制方面数据集的空缺. 该论文还提出了一个自动评估系统, 用于评估模型生成可控制摘要的能力.

2 模型算法设计

本文提出的模型总体架构如图1所示, 主要包括两个关键模块: 扩展Transformer模块和指针生成网络模块. 其中扩展Transformer通过BART进行实例化. 输入的文本和指导信号首先进入扩展Transformer模块的两个编码器进行特征提取, 然后将输出的特征向量与解码器进行交互后作为指针生成网络的输入. 指针生成网络结合生成式和抽象式摘要方法, 使模型具有从源文本中复制单词的能力, 同时也具有生成新单词的能力.

图 1 模型整体架构

2.1 扩展Transformer

在本文模型中, 为了使生成的摘要更加忠诚于文本, 我们采用两个编码器, 其中一个编码器用于对源文档进行编码, 而另一个编码器则用于对用户输入的指导信号进行编码. 每个编码器都包含${G_{{\mathrm{enc}}}}$层, 每一层由两个部分组成, 分别为序列位置感知的注意力和前馈神经网络. 编码器中每一层的过程可以通过以下公式表示:

$ x = LN(x + {\textit{Self}}{\textit{-}} Attention(x)) $ (1)
$ x = LN(x + FFN(x)) $ (2)
$ {\textit{FFN}}(x) = \max (0, x{W_1} + {b_1}){W_2} + {b_2} $ (3)

其中, $LN$表示层归一化. ${\textit{FFN}}$表示前馈神经网络, 与Transformer中的相同, 由两个线性变化组成. 第1个全连接层的激活函数为${ReLU} $激活函数. 其中 ${W_1}$${W_2}$${b_1}$${b_2}$都为可学习参数. 需要注意的是在编码过程中, 两个编码器不会相互影响. 除了最高层外, 剩下的${G_{{\mathrm{enc}}}} - 1$层和词嵌入层参数都是共享的. 这样设计的好处是: 1)这样可以减少计算和内存需求. 2)我们认为源文档和指导信号之间的差异主要集中在模型的高层表示中, 这些差异可以在解码器的最顶层被充分捕获.

通常的Transformer只需处理一个编码器的输出, 但是本文模型的解码器必须同时处理源文档和引导信号两个输入. 解码器是由${G_{{\mathrm{dec}}}}$个相同的层组成, 每一层包含有4个关键部分. 输入首先经过序列位置信息感知自注意力部分, 然后解码器将通过序列位置信息感知交互注意力部分关注用户提供的指导信号并生成相应的表示, 这一方法使得指导信号可以指导解码器应该关注源文档的哪一部分. 接下来, 解码器将根据指导感知表示关注整个源文档. 最后, 输出表示将被馈送到前馈神经网络中进行进一步处理, 具体过程可以通过以下公式表示:

$ y = LN(y + {\textit{Self-}} Attention(y)) $ (4)
$ y = LN(y + {\textit{Cross-}} Attention(y, g)) $ (5)
$ y = LN(y + {\textit{Cross-}} Attention(y, x)) $ (6)
$ y = LN(y + {\textit{FFN}}(y)) $ (7)
$ {\textit{FFN}}(y) = \max (0, y{W_1} + {b_1}){W_2} + {b_2} $ (8)

其中, $LN$表示层归一化. ${\textit{FFN}}$是前馈神经网络, 由两个线性变化即两个全连接层构成. 第1个全连接层的激活函数为${ReLU} $激活函数. 公式中${W_1}$${W_2}$${b_1}$${b_2}$都为可学习参数, $g$为指导信号的表征, $ x $为输入文本的表征.

2.2 指针生成网络

编码器逐词读取源文本之后, 生成一个编码器隐藏状态的序列${h_i}$. 在每一个时间步$t$上, 解码器将摘要中之前的单词作为输入, 并用它们来更新时间步$t$解码器的隐藏状态${s_t}$. 然后解码器隐藏状态会被用来计算注意力分布, 通过式(9)和式(10)计算得到.

$ e_i^t = {v^t}\tanh({W_h}{h_i} + {W_s}{s_t} + {b_{{\mathrm{attn}}}}) $ (9)
$ {a_t} = {\textit{Softmax}} ({e^t}) $ (10)

其中, ${v^t}$${W_h}$${W_s}$${b_{{\mathrm{attn}}}}$都为可学习参数. 然后将得到的注意力分布与编码器的隐藏状态进行加权求和, 可以得到上下文向量(context vector) $h_t^*$:

$ h_t^* = \sum\limits_i {a_i^t{h_i}} $ (11)

将上下文向量和解码器隐藏状态拼接后输入两个线性层可以得到词汇分布${P_{{\mathrm{vocab}}}}$:

$ {P_{{\mathrm{vocab}}}} = {{\textit{Softmax}}} (V'(V[{s_t}, h_t^*] + b) + b') $ (12)

其中, $V'$$V$$b$$b'$为可学习参数. ${P_{{\mathrm{vocab}}}}$为词汇表中所有单词的概率分布.

指针生成网络为了解决OOV问题, 模型可以直接复制源文本中的单词也可以从词汇表中选择单词. 对于每一个时间步$t$, 生成摘要的概率${P_{{\mathrm{gen}}}}$通过上下文向量$h_t^*$、解码器状态${s_t}$和解码器输入${x_t}$三者得到:

$ {P_{{\mathrm{gen}}}} = \sigma (w_h^{\mathrm{T}}\times h_t^* + w_S^{\mathrm{T}}{s_t} + w_x^{\mathrm{T}}{x_t} + {b_{{\mathrm{ptr}}}}) $ (13)

其中, $w_h^{\mathrm{T}}$$w_s^{\mathrm{T}}$$w_x^{\mathrm{T}}$${b_{{\mathrm{ptr}}}}$为可学习参数, $\sigma $为激活函数Sigmoid函数. 接下来, 生成单词$w$的概率等于从词汇集生成$w$的概率再加上指向原文本任何位置出现该词的概率, 我们用式(14)表示:

$ P(w) = {P_{{\mathrm{gen}}}}{P_{{\mathrm{vocab}}}}(w) + (1 - {P_{{\mathrm{gen}}}})\sum\limits_{i:{w_i} = w} {a_i^t} $ (14)

值得注意的是, 在式(14)中, 如果$w$是一个词汇外的单词, ${P_{{\mathrm{vocab}}}}$将等于0, 同样, 如果$w$没有出现在源文本中, 则后面部分将等于0. 在训练过程中, 时间步$t$的损失值为目标单词$w_t^*$的负对数似然值:

$ los{s_t} = - \log P(w_t^*) $ (15)

整体损失值为:

$ loss = \frac{1}{T}\sum\limits_{t = 0}^T {los{s_t}} $ (16)
2.3 序列位置信息感知的注意力

在Transformer模型中, 输入进编码器的嵌入由两个向量相加, 分别为单词嵌入(word embedding)和位置嵌入(position embedding). 本文提出的模型中, 单词嵌入采用了随机初始化的方法, 但同时将其设置为可训练的, 这意味着在训练过程中会不断优化嵌入表示. 这一处理方式与Transformer模型相似. 然而, 与传统Transformer不同的是, 本文模型不再使用位置嵌入来打破自注意力机制的置换不变性, 而是采用了更加高效的方法来输入序列的位置信息, 以达到生成更优质摘要的效果.

序列位置感知的注意力扩展普通注意力机制以考虑输入元素之间的成对关系. 直观来说, 它将输入建模为有标记的、有向的、完全连接的图. 对于两个输入的元素${t_i}$${t_j}$之间的边通过两个向量来表示$q_{ij}^V,\; q_{ij}^K \in {R^{{d_a}}}$, 在多个head之间这些向量是共享的, ${d_a} = {d_b}$. 通过引入边的表征, 序列位置信息感知注意力机制计算方法如下:

$ {{\textit{z}}_i} = \sum\limits_{j = 1}^n {{q_{ij}}} \left({t_j}{W^V} + q_{ij}^V\right) $ (17)
$ {q_{ij}} = \frac{{\exp {e_{ij}}}}{{\displaystyle\sum\nolimits_{k = 1}^n {\exp {e_{ik}}} }} $ (18)
$ {e_{ij}} = \frac{{{t_j}{W^Q}{{\left({t_j}{W^K} + q_{ij}^K\right)}^{\mathrm{T}}}}}{{\sqrt {{d_{\textit{z}}}} }} $ (19)

即对于各个Value和Key来说, 都会引入一个相互的位置关系表示.

考虑到计算量、内存消耗以及远距离的精确位置信息效用不是很足等因素, 本文对最远的相对位置距离限制为$k$.

对于公式中的$q_{ij}^V$, $q_{ij}^K$的定义如下:

$ q_{ij}^K = m_{clip(j - i, k)}^K $ (20)
$ q_{ij}^V = m_{clip(j - i, k)}^V $ (21)
$ clip(x, k) = \max ( - k, \min (k, x)) $ (22)

模型在训练过程去学习相对位置表示${m^K} = (m_{ - k}^K, \cdots , m_k^K) $${m^V} = (m_{ - k}^V, \cdots, m_k^V)$其中$m_i^K,\; m_i^V \in {R^{d{}_a}}$, 具体如图2所示.

图 2 相对位置向量实例

图2表示了相对位置或元素之间距离的实例边. 本文提出的模型会学习距离为$k$以内的每个相对位置的表示.

3 实验分析 3.1 数据集

实验所采用的数据集是MACSum[18], 这是第1个专门用于多属性文本摘要控制的人工注释数据集. 该数据集包含了新闻文章和对话两个领域的源文本. 具体来说, MACSum源文本来自CNNDM的部分被称为MAC-Doc, 来自QMSum的部分被称为Mac-Dial.

MACSum涵盖了5个不同的控制属性, 分别是长度、提取性、特异性、主题和演讲者.

长度: 表示摘要的字数, 服务于用户阅读该摘要的时间预算.

提取性: 表示从源文本中提取摘要的比例, 当用户希望生成的摘要更多地从源文本中提取内容时, 这个控制属性可以起到作用.

特异性: 表示我们需要在摘要中包含细节和描述性内容的比例.

主题: 用户特别感兴趣的源内容.

演讲者: 对话中用户更喜欢的某些发言者.

3.2 实验评价指标

我们采用ROUGE[19]评估中的ROUGE-1、ROUGE-2、ROUGE-L的F1值来度量文本摘要的质量. 同时, 还采用一个自动指标系统, 用于评估模型生成可控摘要的能力. 对于每个控制属性, 该系统定义了属性度量函数来表示控制程度. 在属性度量函数基础上提出了控制错误率(CER)和控制相关性(CC). CER使用度量函数来衡量生成摘要与标准摘要之间在控制程度上的距离. 一个优秀的模型应该具有较小的CER, 表明其生成的摘要与用户期望的控制属性更加一致. CC则是测量不同属性值的生成摘要之间度量函数的分布, 代表模型的控制属性定义相关的能力. 一个出色的模型应该具有与标准摘要相似的CC分布.

对于一个控制属性$r$和它的属性度量函数${f_r}$, 给定一个预测出来的摘要$\hat{y} $, 标准摘要$y$, 控制错误率的定义如下:

$ {\textit{CER}}(\hat y, y) = \frac{{\left| {{f_r}(\hat y) - {f_r}(y)} \right|}}{{{f_r}\left( y \right) + \varepsilon }} $ (23)

其中, $\varepsilon $是一个小值, 用来避免${f_r}(y)$等于0. 对于控制属性$r$与控制值对$\left[ {{v_1}, {v_2}} \right]$, 这两个值的生成摘要预测为$\left[ {{{\hat{y} }_1}} \right., \left. {{{\hat{y} }_2}} \right]$, 控制相关性可以被定义为:

$ CC({\hat y_1}, {\hat y_2}) = \frac{{{f_r}({{\hat y}_1}) - {f_r}({{\hat y}_2})}}{{{{\textit{Distance}}} ({v_1}, {v_2})}} $ (24)

其中, ${{\textit{Distance}}} \left( {{v_1}, {v_2}} \right)$计算从控制值${v_1}$${v_2}$的距离, 可以是负数. 当CC高于0的时候, 表明被评价的模型与控制属性有正相关性, 当CC低于0时, 表明两者之间有负相关性. 值得注意的是, 在实验中, 多个样本的CERCC是其算数平均值.

综合使用这些指标, 我们能够全面评估模型的文本摘要质量和多属性可控性能

3.3 模型说明

我们基于BART模型构建了本文的扩展Transformer模型, 并按照其超参数来训练总结器. 整个模型总共包含24个编码层, 其中顶层用预训练的参数初始化, 但两个编码器之间的参数是单独训练的. 解码器同样由24层组成, 其中解码器的第1个交互注意力块采用了随机初始化, 而第2个交叉注意力块则使用了预训练参数初始化. 在实验过程中, 我们将最远的相对位置距离$k$设置为64. 需要特别值得注意的是, 对话文本被扁平化处理, 通过使用“</s>”来分割对话转折, 这种处理方式可以提升模型效果. PGN模型的词向量嵌入维度为512, 隐藏层的维度为256.

3.4 对比模型

为了验证本文模型的有效性, 我们选择了5种不同的对比模型与本文提出的模型进行比较.

1)扩展Transformer (Trans-1): 融合普通注意力与双编码器-单解码器的基线模型.

2) PGN: 指针生成网络通过使用指针网络来使模型具备从源文本中复制单词的能力. 编码器和解码器都采用单层双向LSTM.

3) BART: 通过去噪自动编码进行了预训练, 是目前较为优秀的抽象摘要模型.

4) MatchSum[20]: 一种抽取模型, 可对BERTExt生成的候选摘要进行重新排序.

5)硬提示(HP)[21]: 使用控制属性的描述作为硬提示, 每个属性的构成都是“属性: 值”. 同时使用“;”连接5个控制属性并且其添加到输入源. 利用BART[9]作为骨架模型. 将该模型作为多属性可控文本摘要的基线模型与本文模型进行对比.

3.5 实验结果

上述模型与本文提出的模型在数据集上的对比实验结果如表1表2所示.

表 1 不同模型在MAC-Doc上的评估结果

表 2 不同模型在MAC-Dial上的评估结果

为了评估控制质量, 我们采用了两个关键指标: 控制错误率(CER)和控制相关性(CC). 此外, 我们还使用ROUGE分数来评估生成的摘要质量. 对于一个好的模型来说, 我们期望它生成的摘要具有较低的CER值, 越高的ROUGE值, 并且CC值越接近标准摘要. 表1展示了在MAC-Doc数据集上的实验结果. 本文提出的模型在ROUGE指标上与其他对比模型持平, 甚至在R1和R3上有提升. 其中R1达到了0.308, R3达到了0.259. 在4个控制属性上, CCCER几乎都达到了最佳的性能水平. 这表明本文提出的模型在保证摘要质量的同时更加符合用户需求. PGN模型由于结合了生成式策略和提取式策略, 使得摘要生成的效果有了大幅的提升. 通过与Trans-1的对比实验, 我们可以发现, 对于许多低频词, 生成式方法生成并不可靠, 而指针生成网络的复制机制能够有效解决这个问题. 与PGN的对比实验结果显示扩展后的Transformer可以使生成的摘要更加忠诚于指导信号, 从而解决摘要不符合控制信号的问题. 此外模型引入序列位置感知注意力后相较于普通注意力可以有效提升生成摘要质量. 值得注意的是, 与HP模型相比, 本文提出的模型在抽取性和主题的控制能力上表现得更出色, 但在长度和具体性控制属性上略显不足. 这可能是因为不同的控制属性之间的存在一定的矛盾关系, 例如像长摘要需要包括更多的单词, 这不可避免地就会包含更多的信息. 相反, 简短的摘要单词数较少, 因此具体性自然会偏低. 为了实现更好的整体控制, 模型倾向于生成一种折中的摘要. 表2呈现了在MAC-Dial数据集上的结果. 与MAC-Doc数据集类似, 本文提出的模型在大多数指标上都获得了最高分. 但是长度控制方面性能略有下降. 这可能是因为CNNDM预训练为模型学习控制新闻文章的属性提供了某些有用的信息. 值得注意的是, CER不应跨数据集进行比较, 因为不同的数据集规模不同.

4 结论与展望

本文提出了一种基于扩展Transformer和指针生成网络的多属性可控文本摘要模型. 模型包含两个编码器, 分别对源文档和指导信号进行编码. 在解码器中引入了两个交互注意力机制, 以指导模型关注源文档的特定部分, 从而生成满足用户个性化需求的摘要. 此外, 通过采用指针生成网络, 我们的模型能够在自动生成摘要的同时还具备从源文本中复制单词的能力. 同时, 引入相对位置表示于注意力机制中, 以高效地编码位置信息, 从而生成更高质量的摘要. 实验在MACSum数据集上进行了训练和测试, 实验结果表明, 该模型在保证摘要质量的前提下更加符合用户的个性化偏好. 尽管取得了显著进展, 但多属性可控文本摘要仍然是一个具有挑战性的研究领域, 值得我们继续深入探索和改进.

参考文献
[1]
Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2014. 3104–3112.
[2]
Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. Proceedings of the 3rd International Conference on Learning Representations. San Diego: ICLR, 2015.
[3]
Luong MT, Le QV, Sutskever I, et al. Multi-task sequence to sequence learning. Proceedings of the 4th International Conference on Learning Representations. San Juan: ICLR, 2016.
[4]
Chopra S, Auli M, Rush AM. Abstractive sentence summarization with attentive recurrent neural networks. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego: Association for Computational Linguistics, 2016. 93–98.
[5]
Nallapati R, Zhou BW, Dos Santos C, et al. Abstractive text summarization using sequence-to-sequence RNNs and beyond. Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin: Association for Computational Linguistics, 2016. 280–290.
[6]
See A, Liu PJ, Manning CD. Get to the point: Summarization with pointer-generator networks. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver: Association for Computational Linguistics, 2017. 1073–1083.
[7]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 6000–6010.
[8]
Lewis M, Liu YH, Goyal N, et al. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2019. 7871–7880.
[9]
Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf. [2023-08-10].
[10]
Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). New Orleans: Association for Computational Linguistics, 2018. 464–468.
[11]
Makino T, Iwakura T, Takamura H, et al. Global optimization under length constraint for neural text summarization. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019. 1039–1048.
[12]
He J, Kryściński W, McCann B, et al. CTRLsum: Towards generic controllable text summarization. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi: Association for Computational Linguistics, 2020. 5879–5915.
[13]
Cao SY, Wang L. Inference time style control for summarization. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2021. 5942–5953.
[14]
Zhong M, Liu Y, Ge SY, et al. Unsupervised multi-granularity summarization. Proceedings of the 2022 Findings of the Association for Computational Linguistics: EMNLP 2022. Abu Dhabi: Association for Computational Linguistics, 2022. 4980–4995.
[15]
Chan HP, Wang L, King I. Controllable summarization with constrained Markov decision process. Transactions of the Association for Computational Linguistics, 2021, 9: 1213-1232. DOI:10.1162/tacl_a_00423
[16]
Goyal T, Rajani NF, Liu WH, et al. Hydrasum: Disentangling stylistic features in text summarization using multi-decoder models. arXiv:2110.04400, 2021.
[17]
Dou ZY, Liu PF, Hayashi H, et al. GSum: A general framework for guided neural abstractive summarization. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2020. 4830–4842.
[18]
Zhang YS, Liu Y, Yang ZY, et al. MACSum: Controllable summarization with mixed attributes. Transactions of the Association for Computational Linguistics, 2022, 11: 787-803.
[19]
Lin CY. ROUGE: A package for automatic evaluation of summaries. Proceedings of the 2004 Workshop on Text Summarization Branches Out. Barcelona: Association for Computational Linguistics, 2004. 74–81.
[20]
Zhong M, Liu PF, Chen YR, et al. Extractive summarization as text matching. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2020. 6197–6208.
[21]
Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text Transformer. The Journal of Machine Learning Research, 2020, 21(1): 140.