Command Palette
Search for a command to run...
DREAM-1Kは、ByteDanceが公開した動画記述ベンチマークデータセットです。関連する論文結果は以下の通りです。Tarsier: 大規模動画記述モデルのトレーニングと評価のためのレシピ”。
このデータセットには、5つの異なるカテゴリに分類された、複雑度が異なる1,000本のアノテーション付きビデオクリップ(長さ約10秒)が含まれており、各クリップには、1フレームからは正確に識別できない動的イベントが少なくとも1つ含まれています。各ビデオには、すべてのイベント、アクション、モーションを網羅したきめ細かい手動アノテーションが付与されています。
データソースカテゴリ:
- 実写映画
- アニメ映画
- ストックビデオ
- YouTubeの長い動画
- TikTok風のショート動画