OBELICS: مجموعة بيانات مفتوحة ومُرشَّحة على نطاق الويب لمستندات الصور النصية المتشابكة

النماذج المتعددة الأوضاع ذات الحجم الكبير التي تم تدريبها على الوثائق الطبيعية، والتي تتضمن الصور والنصوص بشكل متبادل، تتفوق على النماذج التي تم تدريبها على أزواج الصور والنصوص في مجموعة متنوعة من مقاييس الأداء المتعددة الأوضاع. ومع ذلك، لم يتم إصدار قواعد البيانات المستخدمة لتدريب هذه النماذج، ولم يتم تحديد عملية جمع البيانات بشكل كامل. نقدم مجموعة بيانات OBELICS، وهي مجموعة بيانات مفتوحة ومفلترة على نطاق الويب تتكون من 141 مليون صفحة ويب مستخرجة من Common Crawl (كومون كراول)، و353 مليون صورة مرتبطة، و115 مليار رمز نصي. نصف عملية إنشاء المجموعة ونقدم قواعد الترشيح الشاملة ونحلل محتوى المجموعة. لإظهار جدوى OBELICS، قمنا بتدريب نماذج للرؤية واللغة تحتوي على 9 مليارات و80 مليار معامل سميها IDEFICS (آيديفيكس)، وحصلنا على أداء تنافسي في مختلف مقاييس الأداء المتعددة الأوضاع. نصدر مجموعة البيانات والنماذج والكود الخاص بنا.