15日前

2020年代向けのConvNet

Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie

要約

視覚認識の「1920年代の咆哮（Roaring 20s）」は、Vision Transformers（ViT）の登場により始まった。ViTは、画像分類の最先端モデルとして、迅速にConvNetを置き換えた。しかし、標準的なViTは、物体検出やセマンティックセグメンテーションといった一般的なコンピュータビジョンタスクに適用する際に、困難に直面する。一方で、階層的Transformer（例えばSwin Transformer）は、ConvNetに由来するいくつかの事前知識を再導入することで、Transformerが汎用的なビジョンバックボーンとして実用可能となることを実現し、多様なビジョンタスクにおいて顕著な性能を示した。しかし、こうしたハイブリッドアプローチの有効性は、依然としてTransformerの本質的な優位性に帰属されており、畳み込み層が持つ固有の誘導的バイアス（inductive biases）の貢献は十分に評価されていない。本研究では、純粋なConvNetが達成可能な限界を再検討し、設計空間を精査する。標準的なResNetを段階的にVision Transformerの設計に近づけることで、性能差に寄与する複数の重要な構成要素を発見した。この探求の成果として、純粋なConvNetモデルの族として「ConvNeXt」と名付けられたモデル群が提案される。ConvNeXtは、すべて標準的なConvNetモジュールから構成されており、精度およびスケーラビリティにおいてTransformerと競合可能な性能を発揮する。ImageNetにおけるトップ1精度は87.8％を達成し、COCO物体検出およびADE20KセグメンテーションにおいてSwin Transformerを上回る結果を示した。同時に、標準ConvNetが持つシンプルさと効率性を維持している。