TrICy: Trigger-guided Data-to-text Generation with Intent aware Attention-Copy トリシィ:意図認識アテンション-コピーを用いたトリガー誘導型データからテキストの生成

データからテキストへの生成(Data-to-text, D2T)は、多くの自然言語理解(Natural Language Understanding, NLU)アプリケーションにおいて重要なタスクであり、タスク指向の対話システムの基礎を形成しています。ユーザーのデバイス上のローカルデータと直接連携できる会話型AIソリューションの文脈では、大規模な事前学習済み言語モデル(Pre-trained Language Models, PLMs)を使用するアーキテクチャは、高いメモリ消費量のためにデバイス上での展開が非現実的です。この問題に対処するために、私たちはTrICyという新しい軽量フレームワークを提案します。TrICyは、コンテキスト内の意図に基づいてテキストシーケンスを生成し、さらにユーザーが提供するトリガーによってガイダンスされることが可能です。私たちは注意コピー機構(attention-copy mechanism)を利用して、語彙外(Out-of-Vocabulary, OOV)単語を正確に予測します。E2E NLGデータセット(BLEU: 66.43%, ROUGE-L: 70.14%)、WebNLGデータセット(BLEU: 見慣れたデータ 64.08%, 新規データ 52.35%)、およびテキストメッセージングアプリケーションに関連するカスタムデータセットにおける性能分析により、私たちのアーキテクチャの有効性が示されています。さらに、オプションのトリガー入力を活用することで、D2T生成の品質が大幅に向上し、E2E NLGで新しい最先端(State-of-the-Art, SOTA)スコアであるBLEU 69.29%を達成しました。また、私たちの分析では、TrICyがGPT-3やChatGPT、Llama 2などの大規模言語モデル(Large Language Models, LLMs)に対して少なくともBLEUで24%、METEORで3%以上の改善を達成していることが示されています。さらに、訓練中にトリガーが存在しない場合でも、いくつかのシナリオにおいてトリガーによる性能向上が観察されることも示しています。