16日前

MlTr:Transformerを用いた多ラベル分類

Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Nian Shi, Honglin Liu
MlTr:Transformerを用いた多ラベル分類
要約

多ラベル画像分類のタスクは、画像に含まれるすべての物体ラベルを認識することを目的としている。長年にわたり進展を遂げてきたが、従来の畳み込みニューラルネットワーク(CNN)ベースのモデルにおいても、小規模な物体、類似する物体、および高い条件付き確率を持つ物体は依然として主な課題であり、畳み込みカーネルの表現能力に制限されている。近年のビジョン変換器(Vision Transformer)ネットワークは、自己注意機構(self-attention mechanism)を用いてピクセル単位の特徴を抽出することで、より豊かな局所的な意味情報の表現を可能としている。しかしながら、グローバルな空間的依存関係を十分に抽出するには不十分である。本論文では、CNNベースの手法が直面する3つの重要な問題を指摘し、特定の変換器モジュールを導入することでそれらを解決する可能性を検討する。そこで、ウィンドウ分割、ウィンドウ内ピクセル注意、クロスウィンドウ注意を組み合わせた多ラベル変換器アーキテクチャ(Multi-label Transformer, MlTr)を提案する。このMlTrは、MS-COCO、Pascal-VOC、NUS-WIDEといった代表的な多ラベルデータセットにおいて、それぞれ88.5%、95.8%、65.5%という最先端の性能を達成した。コードは近日中に https://github.com/starmemda/MlTr/ にて公開される予定である。