17日前

LeViT:高速推論を実現するコンボリューショナルネットワーク風のビジョンTransformer

Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Hervé Jégou, Matthijs Douze
LeViT:高速推論を実現するコンボリューショナルネットワーク風のビジョンTransformer
要約

我々は、高速動作環境における精度と効率のトレードオフを最適化する画像分類アーキテクチャの族を設計した。本研究では、高度に並列処理可能なハードウェア上で競争力を持つことが示された、注目(attention)に基づくアーキテクチャの最近の知見を活用している。さらに、畳み込みニューラルネットワーク(CNN)に関する広範な文献から得られた原則を、特に解像度が徐々に低下する活性マップの概念を含めて、トランスフォーマーに再適用した。また、視覚トランスフォーマーに位置情報を統合する新たな手法として「注目バイアス(attention bias)」を導入した。その結果、高速な推論を実現するためのハイブリッドニューラルネットワーク「LeVIT」を提案する。異なるハードウェアプラットフォームにおける効率性の多様な評価指標を考慮することで、幅広い実用シーンを的確に反映する。広範な実験により、本研究の技術的選択が多数のアーキテクチャに適していることが実証された。総合的に見て、LeVITは既存の畳み込みネットワーク(convnets)および視覚トランスフォーマーと比較して、速度と精度のトレードオフにおいて顕著に優れている。例えば、ImageNetのトップ1精度が80%の条件下で、CPU上でEfficientNetに比べて5倍の高速性を達成している。コードはGitHubにて公開されており、https://github.com/facebookresearch/LeViT から入手可能である。

LeViT:高速推論を実現するコンボリューショナルネットワーク風のビジョンTransformer | 最新論文 | HyperAI超神経