HyperAIHyperAI
منذ 2 أشهر

OBELICS: مجموعة بيانات مفتوحة ومُرشَّحة على نطاق الويب لمستندات الصور النصية المتشابكة

Laurençon, Hugo ; Saulnier, Lucile ; Tronchon, Léo ; Bekman, Stas ; Singh, Amanpreet ; Lozhkov, Anton ; Wang, Thomas ; Karamcheti, Siddharth ; Rush, Alexander M. ; Kiela, Douwe ; Cord, Matthieu ; Sanh, Victor
OBELICS: مجموعة بيانات مفتوحة ومُرشَّحة على نطاق الويب لمستندات الصور النصية المتشابكة
الملخص

النماذج المتعددة الأوضاع ذات الحجم الكبير التي تم تدريبها على الوثائق الطبيعية، والتي تتضمن الصور والنصوص بشكل متبادل، تتفوق على النماذج التي تم تدريبها على أزواج الصور والنصوص في مجموعة متنوعة من مقاييس الأداء المتعددة الأوضاع. ومع ذلك، لم يتم إصدار قواعد البيانات المستخدمة لتدريب هذه النماذج، ولم يتم تحديد عملية جمع البيانات بشكل كامل. نقدم مجموعة بيانات OBELICS، وهي مجموعة بيانات مفتوحة ومفلترة على نطاق الويب تتكون من 141 مليون صفحة ويب مستخرجة من Common Crawl (كومون كراول)، و353 مليون صورة مرتبطة، و115 مليار رمز نصي. نصف عملية إنشاء المجموعة ونقدم قواعد الترشيح الشاملة ونحلل محتوى المجموعة. لإظهار جدوى OBELICS، قمنا بتدريب نماذج للرؤية واللغة تحتوي على 9 مليارات و80 مليار معامل سميها IDEFICS (آيديفيكس)، وحصلنا على أداء تنافسي في مختلف مقاييس الأداء المتعددة الأوضاع. نصدر مجموعة البيانات والنماذج والكود الخاص بنا.

OBELICS: مجموعة بيانات مفتوحة ومُرشَّحة على نطاق الويب لمستندات الصور النصية المتشابكة | أحدث الأوراق البحثية | HyperAI