2ヶ月前

IA-RED$^2$: 解釈可能性を考慮した冗長性削減手法のビジョントランスフォーマーへの適用

Pan, Bowen ; Panda, Rameswar ; Jiang, Yifan ; Wang, Zhangyang ; Feris, Rogerio ; Oliva, Aude

要約

自己注意に基づくモデルであるトランスフォーマーは、最近、コンピュータビジョン分野における主要な骨格として注目を集めています。トランスフォーマーが様々なビジョンタスクで印象的な成功を収めているにもかかわらず、依然として重い計算量と多大なメモリコストに悩まされています。この制約に対処するため、本論文では解釈可能性を考慮した冗長性削減フレームワーク（IA-RED$^2$）を提案します。まず、大量の冗長な計算が主に相関のない入力パッチに費やされていることを観察し、次にこれらの冗長なパッチを動的にかつ優雅に削除する解釈可能なモジュールを導入します。この新規フレームワークは階層構造へと拡張され、異なる段階での相関のないトークンが徐々に除去されることで、計算コストが大幅に縮小されます。私たちは画像およびビデオタスクにおいて広範な実験を行い、当手法はDeiTやTimeSformerなどの最先端モデルに対して最大1.4倍の高速化を達成し、精度低下は0.7%未満に抑えられることを確認しました。さらに重要な点は、他の加速手法とは異なり、当手法は視覚的証拠とともに本質的に解釈可能であることです。これにより、トランスフォーマーはより軽量化されつつも人間にとって理解しやすいアーキテクチャへと近づきます。我々のフレームワークから自然に生じる解釈可能性は、元のビジュアルトランスフォーマーによって学習された原始的な注意だけでなく、既存の解釈手法によって生成されたものよりも優れた性能を示すことが定性的および定量的な結果から明らかになりました。プロジェクトページ: http://people.csail.mit.edu/bpan/ia-red/。