16日前
TAPIR:フレームごとの初期化と時系列的な精緻化を用いた任意の点の追跡
Carl Doersch, Yi Yang, Mel Vecerik, Dilara Gokay, Ankush Gupta, Yusuf Aytar, Joao Carreira, Andrew Zisserman

要約
我々は、動画シーケンス全体にわたり任意の物理面に存在する任意の点を効果的に追跡するための新規モデル「Tracking Any Point(TAP)」を提案する。本手法は2段階のアプローチを採用している。(1)マッチング段階では、各フレームに対してクエリ点に対応する適切な候補点を独立して特定する。そして(2)精緻化段階では、局所的な相関関係に基づいて軌道およびクエリ特徴量を同時に更新する。その結果、TAP-Vidベンチマークにおいて従来のベースライン手法を大きく上回り、DAVISデータセット上で平均Jaccard(AJ)スコアが約20%の絶対値向上を達成した。本モデルは長時間かつ高解像度の動画シーケンスにおいて高速な推論を実現可能である。現代のGPU上で実装した場合、リアルタイムを超える速度で点の追跡が可能であり、さらに高解像度動画への柔軟な拡張も可能である。大規模データセットから抽出された高品質な軌道情報を活用し、静止画像から軌道を生成するプロトタイプの拡散モデル(diffusion model)を構築し、現実的なアニメーションの生成を可能にした。可視化結果、ソースコード、事前学習済みモデルは、プロジェクトウェブページにて公開されている。