知識集約型自然言語処理タスクにおけるリトリーブ増強生成

大規模な事前学習済み言語モデルは、パラメータ内に事実知識を格納しており、下流の自然言語処理(NLP)タスクにおいてファインチューニングすることで、最先端の性能を達成することが示されている。しかし、これらのモデルは知識へのアクセスおよび精密な操作能力に限界があり、知識集約型のタスクでは、特定タスクに最適化されたアーキテクチャに比べて性能が劣る傾向にある。また、モデルの意思決定に対する根拠(provenance)の提供や、世界知識の更新という点においても、未解決の研究課題が残っている。パラメトリックではない明示的なメモリへの微分可能なアクセス機構を備えた事前学習モデルは、こうした課題を克服できる可能性を示しているが、これまでの研究では主に抽出型の下流タスクに限定されてきた。本研究では、検索拡張生成(Retrieval-Augmented Generation, RAG)モデルに対する汎用的なファインチューニング手法を検討する。RAGモデルは、事前学習済みのパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行うものである。本研究では、パラメトリックメモリとして事前学習済みのseq2seqモデルを、非パラメトリックメモリとしてWikipediaの高密度ベクトルインデックスを用い、事前学習済みのニューラル検索器によってアクセスする構成のRAGモデルを提案する。また、生成シーケンス全体で同一の検索結果を条件とする方式と、各トークンごとに異なる検索結果を使用できる方式の2つのRAG定式化を比較検討した。多様な知識集約型NLPタスクにおいてモデルをファインチューニング・評価した結果、3つのオープンドメインQAタスクで最先端の性能を達成し、パラメトリックなseq2seqモデルおよびタスク特化型の検索・抽出アーキテクチャを上回った。言語生成タスクにおいては、最先端のパラメトリックモデルのみを用いたベースラインと比較して、RAGモデルがより具体的で多様性に富み、事実に即した言語生成を実現していることが明らかになった。