時空間ビデオグラウンディング | SOTA | HyperAI超神経

空間時間的なビデオグラウンディングは、コンピュータビジョンと自然言語処理を組み合わせたタスクで、テキストの説明を特定の空間時間的な領域や瞬間と関連付けることを目指しています。このタスクでは、与えられたテキストクエリや説明に対応するビデオのどの部分が該当するかを決定します。ビデオサマリ作成、コンテンツベースのビデオ検索、ビデオキャプション生成などのアプリケーションにおいて、このタスクは非常に重要な意義を持っています。