HyperAIHyperAI

Command Palette

Search for a command to run...

AdaViT: 適応的なトークンによる効率的なビジョントランスフォーマー

Hongxu Yin Arash Vahdat Jose M. Alvarez Arun Mallya Jan Kautz Pavlo Molchanov

概要

私たちはA-ViT(Adaptive Vision Transformer)を紹介します。これは、異なる複雑さを持つ画像の推論コストを適応的に調整する方法です。A-ViTは、推論が進むにつれてネットワーク内で処理されるトークン数を自動的に削減することで、この目標を達成します。私たちはこのタスクのためにAdaptive Computation Time (ACT)を再定式化し、停止条件を拡張して冗長な空間トークンを破棄します。ビジョントランスフォーマーの魅力的なアーキテクチャ特性により、私たちの適応的なトークン削減メカニズムはネットワークアーキテクチャや推論ハードウェアを変更することなく推論速度を向上させることができます。さらに、A-ViTは停止判定に追加のパラメータやサブネットワークを必要とせず、適応的な停止学習は元のネットワークパラメータに基づいて行われます。私たちは分布先验正則化(distributional prior regularization)も導入しており、これにより従来のACT手法よりも訓練が安定します。画像分類タスク(ImageNet1K)において、提案したA-ViTが情報量のある空間特徴を選別し、全体的な計算量を削減する高い効果性を示しています。提案手法はDeiT-Tinyのスループットを62%向上させ、DeiT-Smallでは38%向上させつつ精度低下は0.3%に抑えられることから、従来技術に対して大幅に優れた性能を発揮しています。プロジェクトページ: https://a-vit.github.io/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています