ビデオ視覚関係検出

ビデオ視覚関係検出(VidVRD)は、コンピュータビジョンの分野におけるサブタスクで、ビデオ内に存在する興味深い視覚的な関係のインスタンスを検出することを目的としています。各インスタンスは、<主語、述語、目的語>という関係トリプレットとその軌跡で表されます。静止画と比較して、ビデオは動的かつ時間的に変化する特徴を提供し、より自然な視覚的な関係を捉えるのに役立ちます。しかし、オブジェクト追跡の高精度な要求や関係表現の多様性により、VidVRDは画像内の視覚関係検出よりも技術的に難易度が高いです。このタスクの応用価値は、ビデオコンテンツを深く理解し、高度なシーン分析や動作認識をサポートすることにあります。