VidSitu ビデオ理解データセット

VidSitu は、ビデオ内のセマンティックな役割ラベル付けのためのデータセット (VidSRL) です。 VidSitu は、2 秒単位で動詞と意味的役割の注釈が付けられた 29,000 個の 10 秒ムービークリップを含む、大規模なビデオ理解データ ソースです。エンティティは通常、フラグメントの各イベントで参照され、イベントはイベント間の関係を通じて接続されます。
VidSitu のクリップは、大規模な映画コレクション (3K) から抽出され、複雑なもの (1 つのビデオに 4.2 の固有の動詞) と多様性のあるもの (それぞれ 100 以上のタグを持つ 200 の動詞) が選択されています。