2ヶ月前
CounTR: Transformerを用いた一般化された視覚的カウント
Liu, Chang ; Zhong, Yujie ; Zisserman, Andrew ; Xie, Weidi

要約
本論文では、一般化された視覚的物体カウントの問題を取り扱い、任意の意味的カテゴリから物体の数を数えるための計算モデルを開発することを目指しています。このモデルは、ゼロショットまたはファーソット(zero-shot or few-shot)カウントに対応します。この目的のために、以下の4つの貢献を行います:一般化された視覚的物体カウント用に新しいトランスフォーマーベースのアーキテクチャを導入し、Counting Transformer (CounTR)と命名しました。このアーキテクチャは、注意メカニズムを使用して画像パッチ間や与えられた「例示」(exemplars)との類似性を明示的に捉えます。2段階の学習体制を採用しました。まず自己監督学習で事前学習を行い、その後教師あり微調整を行うというものです。大量のインスタンスや異なる意味的カテゴリからの訓練画像を合成するためのシンプルで拡張可能なパイプラインを提案します。これによりモデルが与えられた「例示」(exemplars)を利用することが明示的に促されます。大規模なカウントベンチマーク(例えばFSC-147)において詳細な削減研究を行い、ゼロショットおよびファーソット設定での最先端性能を示しました。以上のように、本研究では一般化された視覚的物体カウントにおける新たな手法とその有効性を検証しています。