HyperAIHyperAI

Command Palette

Search for a command to run...

FastViT:構造的再パラメータ化を用いた高速ハイブリッドビジョンTransformer

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

概要

最近、Transformerと畳み込み型アーキテクチャの統合により、モデルの精度と効率が着実に向上している。本研究では、最新の遅延-精度トレードオフを達成するハイブリッド視覚Transformerアーキテクチャ「FastViT」を提案する。この目的のため、FastViTの基本構成要素として、構造的再パラメータ化(structural reparameterization)を用いた新たなトークン混合演算子「RepMixer」を導入し、ネットワーク内のスキップ接続を削除することでメモリアクセスコストを低減する。さらに、訓練時における過剰パラメータ化(overparametrization)と大径カーネル畳み込みを適用することで精度を向上させ、実験的にこれらの選択が遅延にほとんど影響を及ぼさないことを示した。実験の結果、同じImageNetデータセットにおける精度を維持した状態で、FastViTは最近の最先端ハイブリッドTransformerアーキテクチャであるCMTよりも3.5倍高速、EfficientNetよりも4.9倍高速、ConvNeXtよりも1.9倍高速に動作することが確認された。また、類似の遅延条件下では、MobileOneと比較してImageNetにおけるTop-1精度が4.2%向上した。本モデルは、画像分類、検出、セグメンテーション、3Dメッシュ回帰といった複数のタスクにおいて、競合アーキテクチャを一貫して上回り、モバイルデバイスおよびデスクトップGPUの両方で顕著な遅延改善を実現した。さらに、分布外サンプルやノイズに対するモデルのロバスト性も非常に高く、競合するロバストモデルを上回る性能を発揮した。コードおよびモデルは、https://github.com/apple/ml-fastvit にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています