HyperAIHyperAI

Command Palette

Search for a command to run...

VL3-Syn7M マルチモーダル画像テキストデータセット

日付

1年前

サイズ

3.67 GB

データセット構成

Alibaba Group

論文URL

arxiv.org

VL3-Syn7Mデータセットは、2025年にアリババDAMOアカデミーによってリリースされた高品質の画像テキストデータセットです。ビデオ理解のための最先端のマルチモーダル基本モデルVideoLLaMA3がマルチモーダル理解において大きな進歩を遂げるのを支援することを目的としています。関連する論文の結果は次のとおりです。VideoLLaMA 3: 画像とビデオの理解のための最先端のマルチモーダル基盤モデルこのデータセットには、画像の詳細なキャプション、短いキャプション、画像ソース情報など、多次元の詳細な注釈が含まれており、シーン画像、文書画像、テキスト画像など、さまざまなタイプのデータをカバーしており、モデルがマルチモーダル情報を学習するための豊富な資料を提供しています。これらの高品質のデータは、画像の意味理解とマルチモーダルインタラクションシステムの最適化に関する詳細な研究に貴重なサポートを提供し、インテリジェントな視覚アシスタント、文書理解ツール、画像誘導ロボットインタラクションなどの関連産業の発展を促進します。

主な特徴

  • 大規模なデータ規模: 700 万枚の画像と対応する注釈が含まれており、モデルのトレーニングに膨大なサンプルを提供し、大規模データに対する複雑なモデルのニーズを完全に満たし、さまざまな視覚シーンとセマンティクスを理解するモデルの能力を向上させるのに役立ちます。
  • データ ソースは幅広く、シーン イメージは Object365 や SA-1B などの複数の異なるデータセットから取得されるため、データの多様性が大幅に向上します。シーンのテキスト画像は BLIP3-OCR から取得されます。ドキュメント画像は、pdfa-eng-wds や idl-wds などから選択されます。データソースの範囲が広いため、データが豊富で多様な視覚コンテンツとシーンがカバーされ、モデルの一般化とさまざまな種類の画像の理解能力が向上します。
  • 高い注釈品質: 短い字幕は InternVL2-8B によって生成され、詳細な字幕は InternVL2-26B によって完成され、大量のプレーンテキスト データが含まれています。高品質のキャプション注釈は、モデルが画像とテキストの関連性を学習するための正確なガイドを提供し、プレーンテキスト データは、視覚的およびテキスト入力を伴うタスクに従う指示を処理するモデルの能力を向上させるのに役立ちます。

引用

@article{damonlpsg2025videollama3,
title={VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding},
author={Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao},
journal={arXiv preprint arXiv:2501.13106},
year={2025},
url = {https://arxiv.org/abs/2501.13106}
}
@article{damonlpsg2024videollama2,
title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
journal={arXiv preprint arXiv:2406.07476},
year={2024},
url = {https://arxiv.org/abs/2406.07476}
}
@article{damonlpsg2023videollama,
title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
author = {Zhang, Hang and Li, Xin and Bing, Lidong},
journal = {arXiv preprint arXiv:2306.02858},
year = {2023},
url = {https://arxiv.org/abs/2306.02858}
}
VL3-Syn7M.torrent
シーディング 1ダウンロード中 0完了 120総ダウンロード数 259
  • VL3-Syn7M/
    • README.md
      2.45 KB
    • README.txt
      4.9 KB
      • data/
        • VL3-Syn7M.zip
          3.67 GB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VL3-Syn7M マルチモーダル画像テキストデータセット | データセット | HyperAI超神経