منذ 2 أشهر
GLAMI-1M: مجموعة بيانات متعددة اللغات للصور والنصوص في مجال الموضة
Vaclav Kosar; Antonín Hoskovec; Milan Šulc; Radek Bartyzal

الملخص
نقدم GLAMI-1M: أكبر مجموعة بيانات ونموذج مرجعي متعدد اللغات للتصنيف الصوري النصي. تحتوي هذه المجموعة على صور لمنتجات الأزياء مع وصف لكل منتج، وكل وصف بلغة من بين 13 لغة. يتميز التصنيف إلى 191 فئة بوجود شروح ذات جودة عالية: تم تسمية جميع صور الاختبار البالغ عددها 100 ألف صورة و75% من مجموعة التدريب التي تضم مليون صورة يدويًا. يعرض الورق قيم أساسية للتصنيف الصوري النصي تظهر أن المجموعة تشكل مشكلة تصنيف دقيقة ومليئة بالتحديات: حيث حقق أفضل نموذج باستخدام EmbraceNet والذي يستخدم الخصائص البصرية والنصية معًا دقةً تبلغ 69.7%. أظهرت التجارب باستخدام نموذج Imagen معدل (معتمد على النص) أن المجموعة أيضًا مناسبة لإنشاء الصور بناءً على النص. تم نشر المجموعة وأكواد المصدر ونقاط التحقق من النموذج في https://github.com/glami/glami-1m