2ヶ月前

パッチスリムmingによる効率的なビジョントランスフォーマーの実現 注:「Slimming」は一般的に「スリミング」と訳されることが多いですが、専門的な文脈では「スリム化」や「スリムming」などと訳されることもあります。ここでは「スリムming」と訳しましたが、状況に応じて適切な表現を選んでください。

Tang, Yehui ; Han, Kai ; Wang, Yunhe ; Xu, Chang ; Guo, Jianyuan ; Xu, Chao ; Tao, Dacheng
パッチスリムmingによる効率的なビジョントランスフォーマーの実現
注:「Slimming」は一般的に「スリミング」と訳されることが多いですが、専門的な文脈では「スリム化」や「スリムming」などと訳されることもあります。ここでは「スリムming」と訳しましたが、状況に応じて適切な表現を選んでください。
要約

本論文では、視覚変換器の効率性問題を研究し、与えられたネットワークにおける冗長な計算を掘り下げることで解決を試みています。最近のトランスフォーマー構造は、一連のコンピュータビジョンタスクにおいて優れた性能を達成する効果性を示しています。しかし、畳み込みニューラルネットワークと同様に、視覚変換器の大規模な計算コストは依然として深刻な問題となっています。この問題に対処するために、アテンション機構が層ごとに異なるパッチを集約することを考慮し、トップダウンのパラダイムに基づいて無駄なパッチを除去する新しいパッチスリミング手法を提案します。まず最後の層で有効なパッチを特定し、それらを使用して前の層のパッチ選択プロセスをガイドします。各層において、パッチが最終出力特徴量に与える影響を近似し、影響が少ないパッチは削除されます。ベンチマークデータセットでの実験結果は、提案手法が視覚変換器の計算コストを大幅に削減しつつ、その性能に影響を与えないことを示しています。例えば、ViT-Tiモデルの場合、ImageNetデータセット上で0.2%のtop-1精度低下のみで45%以上のFLOPs(Floating Point Operations per Second)が削減されました。

パッチスリムmingによる効率的なビジョントランスフォーマーの実現 注:「Slimming」は一般的に「スリミング」と訳されることが多いですが、専門的な文脈では「スリム化」や「スリムming」などと訳されることもあります。ここでは「スリムming」と訳しましたが、状況に応じて適切な表現を選んでください。 | 最新論文 | HyperAI超神経