HyperAIHyperAI

Command Palette

Search for a command to run...

LeViT:高速推論を実現するコンボリューショナルネットワーク風のビジョンTransformer

Ben Graham Alaaeldin El-Nouby Hugo Touvron Pierre Stock Armand Joulin Hervé Jégou Matthijs Douze

概要

我々は、高速動作環境における精度と効率のトレードオフを最適化する画像分類アーキテクチャの族を設計した。本研究では、高度に並列処理可能なハードウェア上で競争力を持つことが示された、注目(attention)に基づくアーキテクチャの最近の知見を活用している。さらに、畳み込みニューラルネットワーク(CNN)に関する広範な文献から得られた原則を、特に解像度が徐々に低下する活性マップの概念を含めて、トランスフォーマーに再適用した。また、視覚トランスフォーマーに位置情報を統合する新たな手法として「注目バイアス(attention bias)」を導入した。その結果、高速な推論を実現するためのハイブリッドニューラルネットワーク「LeVIT」を提案する。異なるハードウェアプラットフォームにおける効率性の多様な評価指標を考慮することで、幅広い実用シーンを的確に反映する。広範な実験により、本研究の技術的選択が多数のアーキテクチャに適していることが実証された。総合的に見て、LeVITは既存の畳み込みネットワーク(convnets)および視覚トランスフォーマーと比較して、速度と精度のトレードオフにおいて顕著に優れている。例えば、ImageNetのトップ1精度が80%の条件下で、CPU上でEfficientNetに比べて5倍の高速性を達成している。コードはGitHubにて公開されており、https://github.com/facebookresearch/LeViT から入手可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LeViT:高速推論を実現するコンボリューショナルネットワーク風のビジョンTransformer | 記事 | HyperAI超神経