2ヶ月前

静止画を用いて動画の注目物体検出の生成モデルによる変換

Suhwan Cho; Minhyeok Lee; Jungho Lee; Sangyoun Lee
静止画を用いて動画の注目物体検出の生成モデルによる変換
要約

多くのビデオ処理タスクにおいて、大規模な画像データセットを活用することは一般的な戦略であり、画像データはより豊富で包括的な知識転送を促進します。静止画からビデオをシミュレーションする典型的な手法には、アフィン変換やスプラインワーピングなどの空間変換を適用して、時間的な進行を模倣するシークエンスを作成することが含まれます。しかし、外観と動きの手がかりが両方とも重要なビデオ注目物体検出などのタスクでは、これらの基本的な画像からビデオへの技術は各物体の独立した運動特性を捉えた現実的な光学フローを生成できず、失敗することがあります。本研究では、画像からビデオへの拡散モデルが静止画の現実的な変換を生成し、画像成分間の文脈関係を理解できることが示されています。この能力により、モデルはセマンティック的一貫性を保ちつつシーン要素の独立した動きを反映した妥当な光学フローを生成することができます。この方法により個々の画像を拡張することで、大規模な画像-フローペアを作成し、モデルの学習を大幅に向上させることができます。我々のアプローチはすべての公開ベンチマークデータセットにおいて最先端の性能を達成しており、既存の手法を超える結果となっています。