TransVOD:空間時系列変換器を用いたエンドツーエンド型動画オブジェクト検出

Detection Transformer(DETR)および変形DETR(Deformable DETR)は、従来の複雑な手作業で設計された検出器に比べて、多数の手作業によるコンポーネントを排除しつつ良好な性能を発揮する手法として提案された。しかし、これらの手法が動画物体検出(Video Object Detection: VOD)における性能については十分に検討されていなかった。本論文では、空間時系列Transformerアーキテクチャに基づく、初めてのエンドツーエンド型動画物体検出システム「TransVOD」を提案する。本研究の第一の目的は、VODのパイプラインを簡素化し、特に光流モデルや関係ネットワークなど、多数の手作業による特徴統合コンポーネントの必要性を排除することにある。また、DETRにおけるオブジェクトクエリ設計の利点を活かすことで、Seq-NMSのような複雑な後処理手法を不要にしている。特に、各フレームの空間的オブジェクトクエリと特徴メモリを時系列的に統合するための時系列Transformerを提案する。本時系列Transformerは、2つの構成要素からなる:オブジェクトクエリを融合するための「時系列クエリエンコーダー(Temporal Query Encoder: TQE)」と、現在フレームの検出結果を取得するための「時系列変形Transformerデコーダー(Temporal Deformable Transformer Decoder: TDTD)」である。これらの設計により、ImageNet VIDデータセット上において、従来の強力なベースラインである変形DETRを3%~4%のmAP向上で上回った。さらに、TransVODの改良版として、TransVOD++とTransVOD Liteの2つのバージョンを提案する。前者は動的畳み込みを用いてオブジェクトレベルの情報をオブジェクトクエリに統合し、後者は動画クリップ全体を出力としてモデル化することで推論時間を短縮する。実験部では、これらの3つのモデルについて詳細な分析を行った。特に、提案するTransVOD++はImageNet VIDデータセットにおいて90.0%のmAPを達成し、精度面で新たなSOTA(最良の結果)を樹立した。また、TransVOD Liteは単一のV100 GPU上で約30FPSの速度で動作しつつ、83.7%のmAPを達成し、速度と精度のトレードオフにおいて最良のパフォーマンスを示した。