知識注入デコーディング

事前学習済み言語モデル(LM)は、事前学習コーパスから大量の知識を記憶していることが示されているが、特定の文脈下で事実に基づいた知識を正確に想起する能力には依然として限界がある。その結果、知識集約型自然言語生成(NLG)タスクにおいて、架空の(counterfactual)または幻覚的な(hallucinatory)生成を引き起こしやすい。近年の対策は、事前学習段階またはタスク微調整の目的関数を改変し、知識を組み込むものが多く、実用的な応用においては通常、追加の高コストな学習やLMのアーキテクチャ変更を必要とする。本研究では、生成型LM向けに新たなデコーディングアルゴリズム「Knowledge Infused Decoding(KID)」を提案する。KIDは、LMのデコーディングプロセスの各ステップにおいて、外部知識を動的に統合する。具体的には、現在の文脈に基づいて局所的な知識メモリを維持し、動的に作成された外部知識トライ(trie)と連携しながら、強化学習を用いてそのメモリを継続的に更新することで、知識を意識した制約としてデコーディングをガイドする。6種類の多様な知識集約型NLGタスクにおいて、KIDを搭載したタスク非依存型LM(例:GPT-2、BART)は、多数のタスク最適化された最先端モデルを上回り、7つの関連する知識統合手法と比較して、少サンプル(few-shot)設定下での性能が特に優れている。人間評価により、複数のベースラインと比較して、KIDは入力文脈に応じてより関連性が高く、事実に基づいた言語を生成する能力があることが確認された。さらに、KIDは露出バイアス(exposure bias)を緩和し、長文生成においても安定した生成品質を実現する。KIDのコードは、https://github.com/microsoft/KID で公開されている。