Command Palette
Search for a command to run...
VL3-Syn7Mデータセットは、2025年にアリババDAMOアカデミーによってリリースされた高品質の画像テキストデータセットです。ビデオ理解のための最先端のマルチモーダル基本モデルVideoLLaMA3がマルチモーダル理解において大きな進歩を遂げるのを支援することを目的としています。関連する論文の結果は次のとおりです。VideoLLaMA 3: 画像とビデオの理解のための最先端のマルチモーダル基盤モデルこのデータセットには、画像の詳細なキャプション、短いキャプション、画像ソース情報など、多次元の詳細な注釈が含まれており、シーン画像、文書画像、テキスト画像など、さまざまなタイプのデータをカバーしており、モデルがマルチモーダル情報を学習するための豊富な資料を提供しています。これらの高品質のデータは、画像の意味理解とマルチモーダルインタラクションシステムの最適化に関する詳細な研究に貴重なサポートを提供し、インテリジェントな視覚アシスタント、文書理解ツール、画像誘導ロボットインタラクションなどの関連産業の発展を促進します。
主な特徴
- 大規模なデータ規模: 700 万枚の画像と対応する注釈が含まれており、モデルのトレーニングに膨大なサンプルを提供し、大規模データに対する複雑なモデルのニーズを完全に満たし、さまざまな視覚シーンとセマンティクスを理解するモデルの能力を向上させるのに役立ちます。
- データ ソースは幅広く、シーン イメージは Object365 や SA-1B などの複数の異なるデータセットから取得されるため、データの多様性が大幅に向上します。シーンのテキスト画像は BLIP3-OCR から取得されます。ドキュメント画像は、pdfa-eng-wds や idl-wds などから選択されます。データソースの範囲が広いため、データが豊富で多様な視覚コンテンツとシーンがカバーされ、モデルの一般化とさまざまな種類の画像の理解能力が向上します。
- 高い注釈品質: 短い字幕は InternVL2-8B によって生成され、詳細な字幕は InternVL2-26B によって完成され、大量のプレーンテキスト データが含まれています。高品質のキャプション注釈は、モデルが画像とテキストの関連性を学習するための正確なガイドを提供し、プレーンテキスト データは、視覚的およびテキスト入力を伴うタスクに従う指示を処理するモデルの能力を向上させるのに役立ちます。
VL3-Syn7M.torrent
シーディング 1ダウンロード中 0ダウンロード完了 52総ダウンロード数 142