HyperAI

مجموعة بيانات الصور والنصوص WIT

التاريخ

منذ 3 أعوام

الحجم

25.2 GB

المؤسسة

جوجل

رابط النشر

github.com

الترخيص

其他

特色图像

WIT تعني نص الصورة المستند إلى ويكيبيديا، وهي عبارة عن مجموعة بيانات كبيرة متعددة الوسائط ومتعددة اللغات. تتكون مجموعة البيانات من مجموعة مختارة من 37.6 مليون مثال لصور ونصوص غنية بالكيانات، تحتوي على 11.5 مليون صورة فريدة بـ 108 لغة من لغات ويكيبيديا. حجم هذه المجموعة من البيانات يجعلها مناسبة للاستخدام كمجموعة بيانات تدريب مسبق لنماذج التعلم الآلي المتعددة الوسائط.

تتمتع WIT بأربع مزايا فريدة:

  • WIT هي أكبر مجموعة بيانات متعددة الوسائط من حيث عدد أمثلة الصور والنصوص.
  • يغطي هذا الكتاب أكثر من 100 لغة (مع ما لا يقل عن 12000 مثال لكل لغة)، كما يتم توفير نص متعدد اللغات للعديد من الصور.
  • بالمقارنة مع مجموعات البيانات السابقة، يمثل WIT مجموعة أكثر تنوعًا من المفاهيم والكيانات في العالم الحقيقي.
  • يوفر WIT مجموعة اختبارات واقعية صعبة للغاية.
WIT.torrent
البذر 0التنزيل 3مكتمل 382إجمالي التنزيلات 560
  • WIT/
    • README.md
      1.41 KB
    • README.txt
      2.82 KB
      • data/
          • test/
            • wit_v1.test.all-00000-of-00005.tsv.gz
              30.8 MB
            • wit_v1.test.all-00001-of-00005.tsv.gz
              61.46 MB
            • wit_v1.test.all-00002-of-00005.tsv.gz
              91.95 MB
            • wit_v1.test.all-00003-of-00005.tsv.gz
              122.5 MB
            • wit_v1.test.all-00004-of-00005.tsv.gz
              153.14 MB
          • train/
            • wit_v1.train.all-00000-of-00010.tsv.gz
              2.64 GB
            • wit_v1.train.all-00001-of-00010.tsv.gz
              5.12 GB
            • wit_v1.train.all-00002-of-00010.tsv.gz
              7.61 GB
            • wit_v1.train.all-00003-of-00010.tsv.gz
              10.1 GB
            • wit_v1.train.all-00004-of-00010.tsv.gz
              12.58 GB
            • wit_v1.train.all-00005-of-00010.tsv.gz
              15.07 GB
            • wit_v1.train.all-00006-of-00010.tsv.gz
              17.56 GB
            • wit_v1.train.all-00007-of-00010.tsv.gz
              20.04 GB
            • wit_v1.train.all-00008-of-00010.tsv.gz
              22.53 GB
            • wit_v1.train.all-00009-of-00010.tsv.gz
              25.02 GB
          • val/
            • wit_v1.val.all-00000-of-00005.tsv.gz
              25.05 GB
            • wit_v1.val.all-00001-of-00005.tsv.gz
              25.09 GB
            • wit_v1.val.all-00002-of-00005.tsv.gz
              25.13 GB
            • wit_v1.val.all-00003-of-00005.tsv.gz
              25.17 GB
            • wit_v1.val.all-00004-of-00005.tsv.gz
              25.2 GB