2 个月前
TrICy:基于触发器的意图感知注意力-复制数据到文本生成
Vibhav Agarwal; Sourav Ghosh; Harichandana BSS; Himanshu Arora; Barath Raj Kandur Raja

摘要
数据到文本(Data-to-text, D2T)生成是许多自然语言理解(NLU)应用中的关键任务,也是面向任务的对话系统的基础。在可以直接利用用户设备本地数据的会话式人工智能解决方案中,由于大型预训练语言模型(PLMs)具有较高的内存占用,因此不适合用于设备端部署。为此,我们提出了一种名为TrICy的新颖轻量级框架,该框架可以基于上下文中的意图生成文本序列,并且可以通过用户提供的触发器进一步指导生成过程。我们利用注意力复制机制来准确预测词汇表外(Out-of-Vocabulary, OOV)的词语。在E2E NLG数据集上的性能分析显示,TrICy的BLEU得分为66.43%,ROUGE-L得分为70.14%;在WebNLG数据集上,其BLEU得分分别为已见场景64.08%和未见场景52.35%;而在我们自定义的数据集(与短信应用程序相关)上,也展示了该架构的有效性。此外,我们证明了通过利用可选的触发器输入,数据到文本生成的质量显著提高,并在E2E NLG数据集上达到了新的最先进水平(SOTA),BLEU得分为69.29%。我们的分析还表明,与GPT-3、ChatGPT和Llama 2等大型语言模型相比,TrICy在BLEU和METEOR指标上分别至少提高了24%和3%。我们还展示了在某些情况下,即使训练过程中没有使用触发器,由于触发器的存在而带来的性能提升仍然明显。