17日前

KVL-BERT:視覚的常識推論のための知識強化型視覚・言語BERT

Dandan Song, Siyi Ma, Zhanchen Sun, Sicheng Yang, Lejian Liao
KVL-BERT:視覚的常識推論のための知識強化型視覚・言語BERT
要約

推論は完全な視覚的理解に向けた重要な能力である。機械に認知レベルの視覚的理解および推論能力を備えさせるため、視覚的共通知識推論(Visual Commonsense Reasoning; VCR)というタスクが導入された。VCRでは、画像に関する難解な質問が提示された場合、機械は正解を導き出すとともに、その答えを正当化する根拠(rationale)を提示しなければならない。画像の内容と自然言語の共同表現を学習するため、強力なBERTモデルをバックボーンとして採用する手法が、VCRにおいて顕著な性能向上を示している。しかし、現存する手法の多くは、視覚的共通知識推論において共通知識を活用しておらず、本研究ではこの点が極めて重要であると考えている。共通知識を活用することで、画像に直接描かれていない情報であっても、認知的な推論によって複雑な質問に答えることが可能となる。したがって、本研究では、マルチモーダルBERTに共通知識を統合し、新たな「知識強化型視覚・言語BERT(Knowledge Enhanced Visual-and-Linguistic BERT; KVL-BERT)」モデルを提案する。本モデルは視覚的および言語的コンテンツを入力として受け入れるだけでなく、ConceptNetから抽出された外部の共通知識も、多層Transformerに統合する。また、入力シーケンス内の他の無関係な要素との間に生じる干渉を軽減するため、元の文の構造的情報および意味表現を保持する目的で、相対的位置埋め込み(relative position embedding)とマスク自己注意(mask-self-attention)を導入する。他のタスク特化型モデルおよび汎用的なタスク非依存事前学習モデルと比較して、本研究で提案するKVL-BERTは大幅な性能向上を達成している。

KVL-BERT:視覚的常識推論のための知識強化型視覚・言語BERT | 最新論文 | HyperAI超神経