HyperAIHyperAI

Command Palette

Search for a command to run...

DiffRate : 微分可能な圧縮率による効率的なビジョントランスフォーマー

Mengzhao Chen Wenqi Shao Peng Xu Mingbao Lin Kaipeng Zhang Fei Chao Rongrong Ji Yu Qiao Ping Luo

概要

トークン圧縮は、大規模なビジョントランスフォーマー(例:ViTs)の処理速度を向上させるために、トークンをプルーニング(削除)またはマージすることを目指しています。これは重要な課題ですが、難易度も高いです。最近の先進的な手法は大きな成功を収めていますが、これらの手法では圧縮率(つまり、削除するトークン数)を慎重に手動で調整する必要があり、これが煩雑であり、最適でない性能につながることがあります。この問題に対処するために、我々は新しいトークン圧縮手法である微分可能な圧縮率(Differentiable Compression Rate: DiffRate)を提案します。DiffRateにはいくつかの魅力的な特性がありますが、それらは従来の手法には見られません。第一に、DiffRateは損失関数の勾配を圧縮率に伝播させることができます。以前の研究では、圧縮率は非微分可能なハイパーパラメータとみなされていました。これにより、異なる層が自動的に層ごとに異なる圧縮率を学習できるようになり、追加のオーバーヘッドなしで実現できます。第二に、DiffRateではトークンのプルーニングとマージが自然に同時に実行できることに対して、従来の手法ではこれらが分離されていました。第三に、広範な実験結果からDiffRateが最先端の性能を達成していることが示されています。例えば、事前学習済みのViT-H (MAE)モデルに学習した層ごとの圧縮率を適用することで、40% のFLOPs削減と1.5倍のスループット向上を達成し、ImageNetでの精度低下はわずか0.16%でした(ファインチューニングなし)。これは甚至ファインチューニングを行った従来の方法よりも優れた結果となっています。コードとモデルは以下のURLから入手可能です: https://github.com/OpenGVLab/DiffRate.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DiffRate : 微分可能な圧縮率による効率的なビジョントランスフォーマー | 記事 | HyperAI超神経