DiffRate : 微分可能な圧縮率による効率的なビジョントランスフォーマー

トークン圧縮は、大規模なビジョントランスフォーマー(例:ViTs)の処理速度を向上させるために、トークンをプルーニング(削除)またはマージすることを目指しています。これは重要な課題ですが、難易度も高いです。最近の先進的な手法は大きな成功を収めていますが、これらの手法では圧縮率(つまり、削除するトークン数)を慎重に手動で調整する必要があり、これが煩雑であり、最適でない性能につながることがあります。この問題に対処するために、我々は新しいトークン圧縮手法である微分可能な圧縮率(Differentiable Compression Rate: DiffRate)を提案します。DiffRateにはいくつかの魅力的な特性がありますが、それらは従来の手法には見られません。第一に、DiffRateは損失関数の勾配を圧縮率に伝播させることができます。以前の研究では、圧縮率は非微分可能なハイパーパラメータとみなされていました。これにより、異なる層が自動的に層ごとに異なる圧縮率を学習できるようになり、追加のオーバーヘッドなしで実現できます。第二に、DiffRateではトークンのプルーニングとマージが自然に同時に実行できることに対して、従来の手法ではこれらが分離されていました。第三に、広範な実験結果からDiffRateが最先端の性能を達成していることが示されています。例えば、事前学習済みのViT-H (MAE)モデルに学習した層ごとの圧縮率を適用することで、40% のFLOPs削減と1.5倍のスループット向上を達成し、ImageNetでの精度低下はわずか0.16%でした(ファインチューニングなし)。これは甚至ファインチューニングを行った従来の方法よりも優れた結果となっています。コードとモデルは以下のURLから入手可能です: https://github.com/OpenGVLab/DiffRate.