17日前

COFAR:画像検索における常識的・事実的推論

Prajwal Gatti, Abhirama Subramanyam Penamakuri, Revant Teotia, Anand Mishra, Shubhashis Sengupta, Roshni Ramnani
COFAR:画像検索における常識的・事実的推論
要約

現代の人工知能モデルに対して人間が優位である特徴の一つは、視覚的に明示されているもの以上の意味を画像から解釈できる能力にある。以下の2つの自然言語検索クエリを考えてみよう。(i)「アイスクリームを買うために静かに並んでいる客の列」、(ii)「インドの有名なムガル様式建築を見に行く観光客の列」。これらのクエリを解釈するには、(i)日常的な常識(例:人々を「客」や「観光客」として認識し、行動を「買うために待つ」や「見に行く」と解釈すること)、および(ii)名前付きの視覚的エンティティに関する事実的知識(たとえば、画像内の店舗がアイスクリームを販売しているかどうか、あるいは画像内のランドマークがインドに位置するムガル様式の建築物かどうか)を用いた推論が必要となる。このような推論は、単なる視覚認識をはるかに超えるものである。人間が日常的な常識と事実的知識を用いて画像検索を行うことを可能にするために、本研究では「知識取得増強型マルチモーダルトランスフォーマー(Knowledge Retrieval-Augmented Multimodal Transformer, KRAMT)」という統合フレームワークを提案する。このフレームワークは、画像内の名前付き視覚的エンティティを百科事典的な知識へのゲートウェイとして捉え、それらと自然言語クエリを組み合わせて関連する知識を明確に定義(グランド)する。さらに、KRAMTは視覚的コンテンツとグランドされた知識をスムーズに統合し、画像と検索クエリの間の対応関係を学習する。この統合的アプローチにより、日常的な常識と事実的知識を必要とする画像検索が実現される。KRAMTの検索性能は、本研究で新たに導入したデータセット「COFAR(Commonsense and Factual Reasoning in Image Search)」を用いて評価され、関連する既存手法と比較されている。本研究のコードとデータセットは、https://vl2g.github.io/projects/cofar にて公開している。