
近年、畳み込みニューラルネットワーク(CNN)およびビジョントランスフォーマー(ViT)の進展により、動画オブジェクト検出は顕著な進歩を遂げている。一般的に、CNNは局所的な特徴を効果的に捉えるが、グローバルな表現をモデル化する点で課題を抱えている。一方、ViTは長距離のグローバル特徴を効果的に捉えることができるが、局所的な特徴細部の表現には難がある。現在の一般的な動画オブジェクト検出手法は、単にCNNまたはViTに依存して特徴の集約を行うため、グローバル情報と局所情報を同時に活用する能力に制限があり、結果として検出性能が限定的となる。本論文では、トランスフォーマーとグラフ畳み込みネットワーク(GCN)の長所を最大限に活かし、それぞれの短所を補完するための「トランスフォーマー・グラフフォーマー・ブレンドネットワーク(TGBFormer)」を提案する。本手法には以下の3つの技術的革新が含まれる。第一に、空間時間的トランスフォーマーモジュールを構築し、長距離の特徴依存関係を用いてグローバルな文脈情報を集約し、グローバル表現を構成する。第二に、局所的な空間的・時間的関係を活用して特徴を集約する空間時間的グラフフォーマー(GraphFormer)モジュールを導入し、トランスフォーマー出力と補完的な新しい局所表現を生成する。第三に、トランスフォーマーによるグローバル表現とグラフフォーマーによる局所表現を適応的に結合する「グローバル-局所特徴ブレンドモジュール」を設計する。広範な実験により、TGBFormerがImageNet VIDデータセットにおいて新たな最先端の性能を達成することが示された。特に、単一のTesla A100 GPU上で約41.0 FPSの推論速度を維持しつつ、86.5%のmAPを達成した。