
高次元動画から豊かで多スケールの時空間意味を学習することは、フレーム間の局所的な冗長性が大きく、グローバルな依存関係が複雑であるため、困難な課題である。この分野における最近の進展は、主に3D畳み込みニューラルネットワーク(3D CNN)とビジョン変換器(Vision Transformer)によって推進されてきた。3D畳み込みは、小さな3D近傍領域から局所的なコンテキストを効率的に集約することで、局所的な冗長性を抑制することができるが、受容fieldの制限により、グローバルな依存関係を捉える能力に欠ける。一方、ビジョン変換器は自己注意機構(self-attention)によって長距離依存関係を効果的に捉えることができるが、各層におけるすべてのトークン間で無差別な類似性比較を行うため、局所的な冗長性の低減には限界がある。こうした観察に基づき、本研究では、3D畳み込みと時空間自己注意の利点を簡潔な変換器構造に一貫して統合する新規な「ユニファイド・トランスフォーマー(UniFormer)」を提案する。このアーキテクチャは、計算量と精度の間に優れたバランスを実現している。従来の変換器とは異なり、本研究の関係集約モジュールは、浅層では局所的なトークン類似性、深層ではグローバルなトークン類似性を学習することで、時空間的な冗長性と依存関係の両方を効果的に処理する。提案手法は、代表的な動画ベンチマーク(Kinetics-400、Kinetics-600、Something-Something V1&V2)において広範な実験を実施した。ImageNet-1Kでの事前学習のみを用いても、UniFormerはKinetics-400およびKinetics-600においてそれぞれ82.9%、84.8%のトップ1精度を達成し、他の最先端手法と比較して10倍少ないGFLOPsで実行可能である。また、Something-Something V1およびV2では、それぞれ60.8%および71.4%のトップ1精度を達成し、それぞれ新しい最先端性能を記録した。