HyperAI

مجموعة بيانات الصور والنصوص متعددة الوسائط CapsFusion-120M

التاريخ

منذ عام واحد

الحجم

23.21 GB

المؤسسة

جامعة تسينغهوا

رابط النشر

github.com

特色图像

هذه المجموعة من البيانات هي مجموعة بيانات متعددة الوسائط للصور والنصوص أطلقتها جامعة تسينغهوا و BAAI في عام 2024. نتائج الورقة CapsFusion: إعادة النظر في بيانات الصور والنصوص على نطاق واسعلقد تم قبوله من قبل CVPR 2024.

تُعد مجموعة البيانات هذه موردًا عالي الجودة يمكن استخدامه للتدريب المسبق متعدد الوسائط على نطاق واسع. يتضمن هذا الإصدار تعليقات توضيحية مقابلة من مجموعات البيانات LAION-2B وLAION-COCO، مما يسهل التحليل المقارن والدراسات المتعمقة بشكل أكبر حول جودة بيانات الصور والنصوص.

يحتوي كل إدخال بيانات على أربعة حقول:

  • رابط الصورة
  • عنوان LAION-2B (النص البديل الأصلي من الويب)
  • ترجمات LAION-COCO (تم تركيبها بواسطة BLIP)
  • عنوان CapsFusion (فريق البحث)
CapsFusion-120M.torrent
البذر 1التنزيل 1مكتمل 79إجمالي التنزيلات 148
  • CapsFusion-120M/
    • README.md
      1.34 KB
    • README.txt
      2.69 KB
      • data/
        • CapsFusion-120M.zip
          23.21 GB