2ヶ月前

多基準トークン融合と一歩先の注意机制を用いた効率的なビジョントランスフォーマー

Lee, Sanghyeok ; Choi, Joonmyung ; Kim, Hyunwoo J.
多基準トークン融合と一歩先の注意机制を用いた効率的なビジョントランスフォーマー
要約

Vision Transformer (ViT) は、コンピュータビジョンの主要なバックボーンとして注目を集めています。より効率的な ViT の実現に向けて、最近の研究では自己注意層の二次コストをトークンの剪定や融合によって軽減しています。しかし、これらの手法は情報の損失により速度と精度のトレードオフに直面していました。本稿では、トークン間の多様な関係性を考慮することで情報損失を最小限に抑える必要があると主張します。そこで、我々は Multi-criteria Token Fusion (MCTF) を提案します。MCTF は、類似性、情報量、融合後のトークンサイズなどの複数基準に基づいて段階的にトークンを融合します。さらに、一歩先の注意(one-step-ahead attention)という手法を用いて、トークンの情報量を捉える方法を改善しました。MCTF を搭載したモデルをトークン削減の一貫性で訓練することで、画像分類(ImageNet1K)において最良の速度-精度トレードオフを達成しました。実験結果は、MCTF が訓練あり・なしに関わらず従来の削減手法を一貫して上回ることを証明しています。特に、DeiT-T および DeiT-S に MCTF を適用することで、ベースモデルに対して約 44% の FLOPs 減少と性能向上(それぞれ +0.5% および +0.3%)が見られました。また、T2T-ViT や LV-ViT など様々な Vision Transformer への MCTF の適用可能性も示しており、性能低下なしに少なくとも 31% の高速化が達成できることを確認しています。コードは https://github.com/mlvlab/MCTF で公開されています。

多基準トークン融合と一歩先の注意机制を用いた効率的なビジョントランスフォーマー | 最新論文 | HyperAI超神経