2 个月前

TrICy：基于触发器的意图感知注意力-复制数据到文本生成

Vibhav Agarwal; Sourav Ghosh; Harichandana BSS; Himanshu Arora; Barath Raj Kandur Raja

摘要

数据到文本（Data-to-text, D2T）生成是许多自然语言理解（NLU）应用中的关键任务，也是面向任务的对话系统的基础。在可以直接利用用户设备本地数据的会话式人工智能解决方案中，由于大型预训练语言模型（PLMs）具有较高的内存占用，因此不适合用于设备端部署。为此，我们提出了一种名为TrICy的新颖轻量级框架，该框架可以基于上下文中的意图生成文本序列，并且可以通过用户提供的触发器进一步指导生成过程。我们利用注意力复制机制来准确预测词汇表外（Out-of-Vocabulary, OOV）的词语。在E2E NLG数据集上的性能分析显示，TrICy的BLEU得分为66.43%，ROUGE-L得分为70.14%；在WebNLG数据集上，其BLEU得分分别为已见场景64.08%和未见场景52.35%；而在我们自定义的数据集（与短信应用程序相关）上，也展示了该架构的有效性。此外，我们证明了通过利用可选的触发器输入，数据到文本生成的质量显著提高，并在E2E NLG数据集上达到了新的最先进水平（SOTA），BLEU得分为69.29%。我们的分析还表明，与GPT-3、ChatGPT和Llama 2等大型语言模型相比，TrICy在BLEU和METEOR指标上分别至少提高了24%和3%。我们还展示了在某些情况下，即使训练过程中没有使用触发器，由于触发器的存在而带来的性能提升仍然明显。