11日前
オープンワールドテキスト指定オブジェクトカウントング
Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman

要約
本研究の目的は、画像におけるオープンワールドオブジェクトカウントを実現することであり、対象オブジェクトクラスはテキスト記述によって指定される。これを達成するため、事前学習済みのテキスト・画像統合表現を基盤とし、トランスフォーマー・デコーダを用いたカウンティングヘッドを搭載した、クラスに依存しない単段階型モデルであるCounTXを提案する。CounTXは、画像と対象オブジェクトクラスのテキスト記述のみを入力として、任意のクラスのインスタンス数を正確にカウント可能であり、エンド・ツー・エンドで学習が可能である。本研究の貢献は以下の通りである:(i) CounTXの性能を先行研究と比較し、テキストによるタスク指定を用いる手法において、FSC-147ベンチマークですべての評価指標において最先端の性能を達成することを示した;(ii) オブジェクトクラスを単なるクラス名ではなく、より詳細な言語表現で記述可能なように改良したFSC-147の拡張版であるFSC-147-Dを提案し、公開した。FSC-147-Dおよび実装コードは、https://www.robots.ox.ac.uk/~vgg/research/countx にて公開されている。