17日前
TokenLearner:8つの学習トークンは画像および動画に何ができるか?
Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova

要約
本稿では、少量の適応的に学習されたトークンに依拠する新しい視覚表現学習手法を提案する。この手法は、画像および動画理解の両タスクに適用可能である。従来の手動設計された分割戦略により視覚トークンを生成し、注意機構(attention)処理に大量の密にサンプリングされたパッチを用いるのではなく、我々のアプローチは視覚データ内から重要なトークンを学習的に探索する。これにより、効率的かつ効果的に少数の重要な視覚トークンを特定し、画像における空間的コンテンツや、動画におけるより長い時間的範囲にわたるトークン間のペアワイズ注意機構をモデル化することが可能となる。実験結果から、画像および動画認識の複数の難易度の高いベンチマークにおいて、優れた性能が確認された。特に、本手法で学習されるトークンが適応的である点が特徴であり、計算量を大幅に削減しつつ、競争力のある結果を達成している。ImageNetにおける評価では、最先端の手法と同等の性能を達成しつつ、計算効率が優れている。さらに、Kinetics-400、Kinetics-600、Charades、AViDといった複数の動画データセットにおいても、本手法の有効性が確認された。コードは以下のURLで公開されている:https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner