HyperAIHyperAI

Command Palette

Search for a command to run...

2020年代向けのConvNet

Zhuang Liu Hanzi Mao Chao-Yuan Wu Christoph Feichtenhofer Trevor Darrell Saining Xie

概要

視覚認識の「1920年代の咆哮(Roaring 20s)」は、Vision Transformers(ViT)の登場により始まった。ViTは、画像分類の最先端モデルとして、迅速にConvNetを置き換えた。しかし、標準的なViTは、物体検出やセマンティックセグメンテーションといった一般的なコンピュータビジョンタスクに適用する際に、困難に直面する。一方で、階層的Transformer(例えばSwin Transformer)は、ConvNetに由来するいくつかの事前知識を再導入することで、Transformerが汎用的なビジョンバックボーンとして実用可能となることを実現し、多様なビジョンタスクにおいて顕著な性能を示した。しかし、こうしたハイブリッドアプローチの有効性は、依然としてTransformerの本質的な優位性に帰属されており、畳み込み層が持つ固有の誘導的バイアス(inductive biases)の貢献は十分に評価されていない。本研究では、純粋なConvNetが達成可能な限界を再検討し、設計空間を精査する。標準的なResNetを段階的にVision Transformerの設計に近づけることで、性能差に寄与する複数の重要な構成要素を発見した。この探求の成果として、純粋なConvNetモデルの族として「ConvNeXt」と名付けられたモデル群が提案される。ConvNeXtは、すべて標準的なConvNetモジュールから構成されており、精度およびスケーラビリティにおいてTransformerと競合可能な性能を発揮する。ImageNetにおけるトップ1精度は87.8%を達成し、COCO物体検出およびADE20KセグメンテーションにおいてSwin Transformerを上回る結果を示した。同時に、標準ConvNetが持つシンプルさと効率性を維持している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
2020年代向けのConvNet | 記事 | HyperAI超神経