DiDeMo は Distinct Descriptable Moments の略で、自然言語による説明が与えられたビデオ内のイベントを時間的に特定するために使用できます。データセット内のビデオは Flickr から収集され、各ビデオは最大 30 秒のセグメントに編集されます。注釈の複雑さを軽減するために、データセット内のビデオは 5 秒ごとにセグメントに分割されます。
データ セットはトレーニング セット、検証セット、テスト セットに分割されており、それぞれ 8,395、1,065、1,004 個のビデオが含まれています。データセットには合計 26,892 のモーメントが含まれており、1 つのモーメントは複数のアノテーターによる記述に関連付けられている場合があります。 DiDeMo データセットの説明は詳細であり、カメラの動き、タイムシフト メトリクス、アクティビティが含まれます。さらに、このデータセット内の説明は、各説明が単一の瞬間を参照していることが検証されています。
做种 1
下载中 1
已完成 437
总下载 825