HyperAIHyperAI

Command Palette

Search for a command to run...

スケーリング・ビジョン・トランスフォーマー

Xiaohua Zhai Alexander Kolesnikov Neil Houlsby Lucas Beyer

概要

視覚変換器(Vision Transformer: ViT)をはじめとする注目メカニズムを備えたニューラルネットワークは、近年、多くのコンピュータビジョンベンチマークで最先端の成果を達成している。優れた性能を発揮するためにはスケーリングが重要な要素であり、モデルのスケーリング特性を理解することは、次世代モデルを効果的に設計する上で鍵となる。一方で、変換器ベースの言語モデルのスケーリング則については既に多くの研究が行われているが、Vision Transformerのスケーリング特性については未解明の点が多い。本研究では、ViTモデルおよびデータのスケーリングを上下両方向に実施し、誤差率、データ量、計算量の間の関係を体系的に分析した。その過程で、ViTのアーキテクチャおよび学習プロトコルを精緻化し、メモリ消費を削減するとともに、モデルの精度を向上させた。その結果、20億パラメータを有するViTモデルを成功裏に訓練し、ImageNetにおいて90.45%のトップ1精度という新たな最先端水準を達成した。また、少サンプル転移学習においても優れた性能を発揮し、クラス1つあたり10サンプルのみを用いた場合でも、ImageNetで84.86%のトップ1精度を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
スケーリング・ビジョン・トランスフォーマー | 記事 | HyperAI超神経