17日前
MViTv2:分類および検出のための改良されたマルチスケールビジョンTransformer
Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer

要約
本稿では、画像分類・動画分類および物体検出の統一アーキテクチャとして、マルチスケールビジョン変換器(MViTv2)の研究を行う。我々は、分解型相対的位置埋め込み(decomposed relative positional embeddings)とリジッドプーリング接続(residual pooling connections)を導入した、MViTの改良版を提示する。このアーキテクチャを5つのサイズに実装し、ImageNet分類、COCO物体検出、Kinetics動画認識の3つのタスクにおいて評価した結果、既存の手法を上回る性能を示した。さらに、MViTv2のプーリングアテンション(pooling attention)とウィンドウアテンション(window attention)機構を比較したところ、計算量に対する精度(accuracy/compute)の面で、MViTv2が優れていることが明らかになった。ノイズのないシンプルな設定でも、MViTv2は以下の3つの分野で最先端の性能を達成している:ImageNet分類では88.8%の精度、COCO物体検出では58.7 boxAP、Kinetics-400動画分類では86.1%の精度を記録した。コードおよびモデルは、https://github.com/facebookresearch/mvit にて公開されている。