HyperAIHyperAI

Command Palette

Search for a command to run...

MoVie:視覚的カウントおよびそれ以上の分野における調制畳み込みの再検討

Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen

概要

本稿では、自然画像とクエリ(例:質問やカテゴリ)が与えられたときに、その出現回数を予測する視覚的カウント(visual counting)に焦点を当てる。従来の研究の多くが、計算コストが高く、一般化能力に限界がある明示的・記号的モデルを用いるのに対し、我々は局所的にクエリと画像を融合する「モジュレートド畳み込み(modulated convolutions)」を再検討し、シンプルかつ効果的な代替手法を提案する。残差ボトルネック(residual bottleneck)の設計を踏襲して、本手法を「MoVie(Modulated conVolutional bottlenecks)」と命名する。注目すべきは、MoVieが暗黙的かつ包括的な推論を行うこと、そして推論時に単一の順伝播(forward-pass)で済む点である。それでもなお、MoVieはカウントタスクにおいて優れた性能を発揮しており、以下の点で顕著な成果を上げている:1)カウントに特化したVQAタスクにおいて、従来の最先端技術を上回りながらも、より効率的である;2)一般的な物体カウントにおいて難しいベンチマーク(例:COCO)においても、既存手法を上回る性能を示す;3)汎用VQAモデルにおける「数に関する質問」にモジュールとして統合した結果、2020年VQAチャレンジで1位を獲得した。最後に、モジュレートド畳み込み(MoVieを含む)が、カウントにとどまらず、他の推論タスクにも一般化可能なメカニズムとして機能しうることを実証する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています