CinePile の長いビデオ理解に関する質問と回答のデータ セット

長い形式のビデオを理解するための現在のデータセットは、実際の長い形式の理解の課題に対処できないことがよくあります。これらのデータセットから得られる多くのタスクは、ビデオ内の 1 つまたはいくつかのランダムなフレームを分析することでうまく解決できるからです。この問題を解決するには、研究チームは、現実的な長時間ビデオの理解のために設計された新しいデータセットとベンチマークである CinePile を提案しています。
研究チームは高度な LLM と人間とコンピューターの対話を利用し、人間が生成した生のデータに基づいています。包括的なデータセットには、時間的理解、人間と物体の相互作用の理解、シーン内のイベントやアクションについての推論など、さまざまな視覚的およびマルチモーダルな側面をカバーする 305,000 の多肢選択質問 (MCQ) が含まれています。さらに、オープンソースとプロプライエタリの両方の最近のビデオ中心の LLM は、データセットのテスト部分で評価されます。この結果は、最先端のビデオ中心の LLM パフォーマンスでさえ、これらのタスクでは人間に比べて大幅に遅れていることを示しており、ビデオの理解に固有の複雑さと課題が浮き彫りになっています。
CinePile.torrent
シーディング 2ダウンロード中 1ダウンロード完了 50総ダウンロード数 75