منذ 17 أيام
FooDI-ML: مجموعة بيانات كبيرة متعددة اللغات تحتوي على صور ووصف للطعام والمشروبات والبقالة
David Amat Olóndriz, Ponç Palau Puigdevall, Adrià Salvador Palau

الملخص
في هذه الورقة، نقدم مجموعة بيانات FooDI-ML. تضم هذه المجموعة أكثر من 1.5 مليون صورة فريدة، وأكثر من 9.5 مليون اسم متجر، وأسماء منتجات، ووصف، وفئات جمع، تم جمعها من تطبيق Glovo. تم توفير البيانات المتعلقة بمنتجات الطعام والمشروبات والبقالة من 37 دولة في أوروبا، والشرق الأوسط، وإفريقيا، وأمريكا اللاتينية. تشمل المجموعة 33 لغة، منها 870 ألف عينة من لغات دول أوروبا الشرقية وغرب آسيا مثل اللغة الأوكرانية والكازاخستانية، التي كانت حتى الآن ممثلة بشكل غير كافٍ في مجموعات البيانات البصرية-اللغوية المتاحة علنًا. كما تتضمن المجموعة لغات شائعة الاستخدام مثل الإسبانية والإنجليزية. ولتمكين أبحاث إضافية، نقدم معايير أداء (benchmarks) على مهامتين: استرجاع النص الصوري، وإنشاء الصور الشرطي.