16日前
Query2Label:マルチラベル分類のためのシンプルなTransformer手法
Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu

要約
本論文では、多ラベル分類問題を解決するシンプルかつ効果的なアプローチを提示する。提案手法は、Transformerデコーダを用いて各クラスラベルの存在を問い合わせる点に特徴がある。Transformerの導入は、1枚の画像に複数の物体が存在する状況下で、異なるラベルに対して局所的な判別特徴を適応的に抽出する必要性に起因しており、これは非常に望ましい性質である。Transformerデコーダに内蔵されたクロスアテンションモジュールは、ラベル埋め込みをクエリとして用い、視覚バックボーンによって計算された特徴マップからクラス関連の特徴を効果的に探査・集約する手段を提供する。これにより、後続の二値分類が可能となる。従来の手法と比較して、本フレームワークは標準的なTransformerと視覚バックボーンのみを用いるというシンプルさを持ちながらも、MS-COCO、PASCAL VOC、NUS-WIDE、Visual Genomeを含む5つの多ラベル分類データセットにおいて、一貫して過去のすべての手法を上回る性能を達成している。特にMS-COCOでは91.3%のmAPを達成した。本手法のコンパクトな構造、実装の簡潔さ、および優れた性能を踏まえ、多ラベル分類タスクおよび今後の研究における強力なベースラインとして期待される。コードは近日中にhttps://github.com/SlongLiu/query2labelsにて公開予定である。