6ヶ月前

概要

本稿では、自然画像とクエリ（例：質問やカテゴリ）が与えられたときに、その出現回数を予測する視覚的カウント（visual counting）に焦点を当てる。従来の研究の多くが、計算コストが高く、一般化能力に限界がある明示的・記号的モデルを用いるのに対し、我々は局所的にクエリと画像を融合する「モジュレートド畳み込み（modulated convolutions）」を再検討し、シンプルかつ効果的な代替手法を提案する。残差ボトルネック（residual bottleneck）の設計を踏襲して、本手法を「MoVie（Modulated conVolutional bottlenecks）」と命名する。注目すべきは、MoVieが暗黙的かつ包括的な推論を行うこと、そして推論時に単一の順伝播（forward-pass）で済む点である。それでもなお、MoVieはカウントタスクにおいて優れた性能を発揮しており、以下の点で顕著な成果を上げている：1）カウントに特化したVQAタスクにおいて、従来の最先端技術を上回りながらも、より効率的である；2）一般的な物体カウントにおいて難しいベンチマーク（例：COCO）においても、既存手法を上回る性能を示す；3）汎用VQAモデルにおける「数に関する質問」にモジュールとして統合した結果、2020年VQAチャレンジで1位を獲得した。最後に、モジュレートド畳み込み（MoVieを含む）が、カウントにとどまらず、他の推論タスクにも一般化可能なメカニズムとして機能しうることを実証する。

ソースPDF