効率的なViTs | SOTA | HyperAI超神経

効率的なViTs（Efficient ViTs）は、Transformerアーキテクチャを変更せずにVision Transformersの効率を向上させることが目的です。主な技術にはキーとクエリのスパルシフィケーション（稀疏化）、トークンプルーニング（剪定）、およびトークンマージ（結合）が含まれます。これらの手法により、計算コストとメモリ消費を大幅に削減しながらモデルの性能を維持でき、大規模データセットでの学習と推論速度を向上させることができます。リソースに制約のある環境でのリアルタイム画像処理やコンピュータビジョンタスクに適しています。

ImageNet-1K (with DeiT-S)

ImageNet-1K (with DeiT-T)

ImageNet-1K (With LV-ViT-S)