SPViT: ソフトトークンプルーニングを用いた高速化されたビジョントランスフォーマーの実現

最近、ビジョントランスフォーマー(Vision Transformer: ViT)は、コンピュータビジョン分野で継続的に新たなマイルストーンを築いていますが、その高い計算量とメモリコストが産業での普及を難しくしています。ハードウェア効率のための伝統的なモデル圧縮手法であるプルーニングは、様々なDNN構造に広く適用されています。しかし、ViT構造に対して排他的なプルーニングを行う方法については不明瞭な点が多いです。この問題に対処するため、3つの重要なポイントを考慮します:構造的特性、ViT内部のデータパターン、および関連するエッジデバイスへの展開。私たちは入力トークンの疎性を利用し、フラット化されたトランスフォーマーやCNN型構造を持つトランスフォーマー(例:Pooling-based ViT (PiT))にも適用可能な計算量に配慮したソフトプルーニングフレームワークを提案しました。具体的には、動的な注意に基づいたマルチヘッドトークンセレクターを設計しました。これは適応的なインスタンスごとのトークン選択を行う軽量モジュールです。さらに、選択器モジュールによって生成された情報量の少ないトークンを完全に破棄せずにパッケージトークンとして統合し、その後の計算に参加させるソフトプルーニング技術を導入しました。私たちのフレームワークは、提案した計算量に配慮した学習戦略を通じて、特定のエッジデバイスにおける精度と計算制約間のトレードオフを管理します。実験結果は、私たちのフレームワークが画像分類において同等の性能を維持しながらViTの計算コストを大幅に削減することを示しています。さらに、私たちのフレームワークはモバイルデバイスやFPGA向けのリソース仕様を満たすことを保証し、DeiT-Tのようなモデルがモバイルプラットフォーム上でリアルタイム実行できるようにすることが可能です。例えば、私たち的方法はImageNetでのトップ1精度を0.25%〜4%向上させつつ、既存の手法よりも26%〜41%優れた26ミリ秒という遅延時間でDeiT-Tをモバイルデバイス上で実行できます。