17日前

KRISP:オープンドメイン知識ベース型VQAにおける暗黙的知識と記号的知識の統合

Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, Marcus Rohrbach
KRISP:オープンドメイン知識ベース型VQAにおける暗黙的知識と記号的知識の統合
要約

視覚質問応答(VQA)における最も困難な質問タイプの一つは、画像に含まれない外部知識を必要とする場合である。本研究では、質問の回答に必要な知識が学習時およびテスト時においても提示・アノテーションされていない、いわゆるオープンドメイン知識の設定に着目する。我々は、知識表現と推論の2つの異なるタイプに着目している。第一に、Transformerベースのモデルを用いた非教師付き言語前学習および教師付き学習データから効果的に学習可能な「implicit knowledge(暗黙的知識)」である。第二に、知識ベースに符号化された「explicit, symbolic knowledge(明示的・記号的知識)」である。本研究のアプローチは、これら2つの知識表現を統合したものであり、Transformerモデルが持つ強力な暗黙的推論能力を活用して回答を予測するとともに、知識グラフからの記号的表現を統合しつつ、それらの明示的意味を暗黙的埋め込みに喪失することなく維持している。多様な知識源を統合することで、知識ベースの質問を解くために必要となる広範な知識をカバーする。我々は、KRISP(Knowledge Reasoning with Implicit and Symbolic rePresentations)という提案手法が、オープンドメイン知識に基づくVQAにおける最大規模のデータセットであるOK-VQAにおいて、最先端手法を顕著に上回ることを示した。広範な消去実験を通じて、モデルが暗黙的知識推論を効果的に活用していることを確認した一方で、知識グラフと回答語彙を明示的に接続する記号的回答モジュールが、本手法の性能にとって不可欠であり、稀な回答への一般化能力にも寄与していることが明らかになった。