8日前

FastViT：構造的再パラメータ化を用いた高速ハイブリッドビジョンTransformer

Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan

要約

最近、Transformerと畳み込み型アーキテクチャの統合により、モデルの精度と効率が着実に向上している。本研究では、最新の遅延-精度トレードオフを達成するハイブリッド視覚Transformerアーキテクチャ「FastViT」を提案する。この目的のため、FastViTの基本構成要素として、構造的再パラメータ化（structural reparameterization）を用いた新たなトークン混合演算子「RepMixer」を導入し、ネットワーク内のスキップ接続を削除することでメモリアクセスコストを低減する。さらに、訓練時における過剰パラメータ化（overparametrization）と大径カーネル畳み込みを適用することで精度を向上させ、実験的にこれらの選択が遅延にほとんど影響を及ぼさないことを示した。実験の結果、同じImageNetデータセットにおける精度を維持した状態で、FastViTは最近の最先端ハイブリッドTransformerアーキテクチャであるCMTよりも3.5倍高速、EfficientNetよりも4.9倍高速、ConvNeXtよりも1.9倍高速に動作することが確認された。また、類似の遅延条件下では、MobileOneと比較してImageNetにおけるTop-1精度が4.2%向上した。本モデルは、画像分類、検出、セグメンテーション、3Dメッシュ回帰といった複数のタスクにおいて、競合アーキテクチャを一貫して上回り、モバイルデバイスおよびデスクトップGPUの両方で顕著な遅延改善を実現した。さらに、分布外サンプルやノイズに対するモデルのロバスト性も非常に高く、競合するロバストモデルを上回る性能を発揮した。コードおよびモデルは、https://github.com/apple/ml-fastvit にて公開されている。