ViTT 高密度ビデオ記述データセット

ビデオ タイムライン タグの正式名である ViTT は、人工的に生成されたセグメント レベルの注釈が付いた 8,169 個のビデオで構成されています。このうち、5,840 ビデオには 1 回アノテーションが付けられ、残りのビデオには 2 回以上アノテーションが付けられました。このデータセットでは、合計 12,461 セットのアノテーションがリリースされました。このデータセット内のビデオは、Youtube-8M データセットから取得されています。
ビデオ タイムライン タグの正式名である ViTT は、人工的に生成されたセグメント レベルの注釈が付いた 8,169 個のビデオで構成されています。このうち、5,840 ビデオには 1 回アノテーションが付けられ、残りのビデオには 2 回以上アノテーションが付けられました。このデータセットでは、合計 12,461 セットのアノテーションがリリースされました。このデータセット内のビデオは、Youtube-8M データセットから取得されています。