このデータセットは、上海人工知能実験室(上海AI実験室)、南京大学、中国科学院などが共同で2024年に公開する高品質かつ大規模な動画・テキストデータセットであり、人工知能の大規模化に対応することを目的としています。ビデオ言語モデリングでは、大規模なモデルのビデオを理解して生成する能力をさらに向上させることが求められています。
世界最大のビデオテキスト公開データセットの 1 つとして、InternVid には、詳細なテキスト説明を含む 700 万以上のビデオが含まれており、16 のシーンと約 6,000 のアクションの説明が含まれており、総再生時間はほぼ 760,000 時間になります。データセット内でビデオとテキストの高度な対応性を備えていますビデオとテキストの説明が厳密に一致している、ビデオ テキストの意味一致、ビデオ テキストの検索、ビデオ テキストの生成などのマルチモーダル学習タスク トレーニングのための「ビデオ辞書」を提供します。
InternVid は学術コミュニティから広く注目されており、マルチモーダル ワールド モデル LWM に適用されており、Google および Stable AI によるビデオ生成作業で使用または参照されており、2024 年の国際表現会議で関連論文が注目を集めています。学習 (ICLR 2024)。
做种 1
下载中 1
已完成 37
总下载 90