17日前
UNIQORN:RDF知識グラフと自然言語テキスト上の統合的質問応答
Soumajit Pramanik, Jesujoba Alabi, Rishiraj Saha Roy, Gerhard Weikum

要約
RDFデータ(例:知識グラフ)上での質問応答は、自然言語の質問や要約型クエリに対して明確な答えを提供する優れたシステムが多数開発され、大きく進展している。これらのシステムの中には、回答プロセスにテキスト資料を追加の証拠として組み込むものもあるが、テキスト内にのみ存在する答えを計算することはできない。一方、情報検索(IR)および自然言語処理(NLP)の分野では、テキスト上での質問応答が研究されているが、こうしたシステムは意味的データや知識の利用がほとんど行われていない。本論文では、RDFデータセットとテキストコーパスの混合、あるいは個別のソースを統一的な枠組み内でシームレスに処理できる複雑な質問に対する手法を提案する。本手法は「UNIQORN」と呼ばれる。UNIQORNは、微調整済みBERTモデルを用いて、RDFデータおよび/またはテキストコーパスから質問に関連する証拠を取得し、リアルタイムで文脈グラフを構築する。この結果得られるグラフには、通常、質問に関連するすべての証拠が含まれるが、同時に多くのノイズも含む。UNIQORNは、このノイズを含む入力を扱うために、グループ・スタイナー木(Group Steiner Tree)を用いたグラフアルゴリズムを採用し、文脈グラフ内で最適な回答候補を特定する。複数のエンティティおよび関係を含む複雑な質問に関する複数のベンチマークでの実験結果から、UNIQORNは、異種QA(heterogeneous QA)における最先端手法を、完全な学習モードにおいても、ゼロショット設定においても顕著に上回ることが示された。また、グラフベースのアプローチにより、回答プロセス全体に対するユーザーが理解可能な証拠を提供することが可能となる。