データからテキスト生成における単語レベルでの幻覚制御

データからテキスト生成(Data-to-Text Generation, DTG)は、構造化データを自然言語による記述に変換することを目的とする自然言語生成の一分野である。近年、ニューラルベースの生成モデルの活用により、手動で設計されたパイプラインを必要とせずに優れた句構造処理能力を示すモデルが登場した一方で、生成テキストの品質は訓練データの品質に大きく依存しており、現実的な設定では構造とテキストの対応が不完全なペアが主に提供される。その結果、最先端のニューラルモデルは、しばしば「幻覚(hallucinations)」と呼ばれる誤った記述を出力してしまう。この現象の制御は現在、DTG分野における主要な課題となっており、本論文が取り組む問題である。従来の研究では、この問題に対してインスタンスレベルでの対処が行われており、各テーブル・参照ペアに対してアライメントスコアを用いる手法が採用されている。一方、本研究では、幻覚をより細粒度な単語レベルで扱うべきであるという主張を提示し、それに基づく新たなアプローチを提案する。具体的には、各訓練インスタンスにおける関連する部分を学習できるように、単語レベルのラベルを活用するマルチブランチデコーダーを提案する。これらのラベルは、共起解析(co-occurrence analysis)と依存解析(dependency parsing)に基づくシンプルかつ効率的なスコアリング手順によって得られる。標準的なWikiBioベンチマークを用いた包括的な評価(自動評価指標および人間による判断)により、本手法によるアライメントラベルの正確性と提案するマルチブランチデコーダーの有効性が実証された。本モデルは、生成テキストの流暢さと一貫性を維持しつつ、幻覚の発生を低減・制御することが可能である。さらに、ToTToデータセットの劣化版を用いた実験により、本モデルが非常にノイズの多い環境下でも有効に適用可能であることが示された。