3ヶ月前
Segmenter: セマンティックセグメンテーションのためのTransformer
Robin Strudel, Ricardo Garcia, Ivan Laptev, Cordelia Schmid

要約
画像セグメンテーションは、個々の画像パッチレベルにおいて曖昧になりやすく、ラベルの一致(ラベルコンセンサス)を得るためには文脈情報が必要となる。本論文では、セマンティックセグメンテーションを目的としたトランスフォーマーモデル「Segmenter」を提案する。畳み込みベースの手法とは異なり、本手法はネットワークの最初の層から全体にわたりグローバルな文脈をモデル化できる。近年のVision Transformer(ViT)を基盤とし、それをセマンティックセグメンテーションに拡張した。具体的には、画像パッチに対応する出力埋め込みを用い、これらの埋め込みからポイントワイズな線形デコーダーまたはマスクトランスフォーマーデコーダーを用いてクラスラベルを生成する。画像分類タスクで事前学習されたモデルを活用し、セマンティックセグメンテーションに利用可能な中規模データセット上で微調整(fine-tuning)が可能であることを示した。線形デコーダーを用いるだけで優れた結果が得られるが、クラスマスクを生成するマスクトランスフォーマーデコーダーを導入することで性能をさらに向上させられる。異なるパラメータの影響を広範なアブレーションスタディを通じて検証した結果、特に大規模なモデルおよび小さなパッチサイズにおいて高い性能が得られることを確認した。Segmenterはセマンティックセグメンテーションにおいて優れた結果を達成しており、ADE20KおよびPascal Contextの両データセットで既存の最先端手法を上回り、Cityscapesでも競争力のある性能を示している。