مختبر على نطاق واسع لتقسيم صور الطعام

تُعدُّ تقسيم صور الطعام مهمة بالغة الأهمية وضرورية لتطوير تطبيقات مرتبطة بالصحة، مثل تقدير السعرات الحرارية والمواد الغذائية في الطعام. تُعاني النماذج الحالية لتقسيم صور الطعام من أداء محدود بسبب سببين رئيسيين: (1) نقص البيانات عالية الجودة الخاصة بصور الطعام التي تحتوي على تصنيفات دقيقة للمكونات وخرائط موضعية على مستوى البكسل – إذ تُقدَّم البيانات الحالية إما بتصنيفات خشنة للمكونات أو تكون صغيرة في الحجم؛ و(2) تعقيد مظهر الطعام يجعل من الصعب تحديد موقع المكونات وتمييزها في صور الطعام، مثل تداخل المكونات في نفس الصورة، أو ظهور نفس المكون بشكل مختلف تمامًا في صور طعام مختلفة. في هذا العمل، قمنا ببناء مجموعة بيانات جديدة لصور الطعام تُسمى FoodSeg103 (وتمديداتها FoodSeg154)، والتي تحتوي على 9,490 صورة. وقد قمنا بوضع تسميات دقيقة على هذه الصور باستخدام 154 فئة من المكونات، مع متوسط 6 تسميات للمكونات وخرائط موضعية على مستوى البكسل لكل صورة. بالإضافة إلى ذلك، اقترحنا نهجًا للتدريب المسبق متعدد الوسائط يُسمى ReLeM، والذي يزود نموذج التقسيم بشكل صريح بمعرفة غنية ودلالية حول الطعام. وفي التجارب، استخدمنا ثلاث طرق شائعة لتقسيم المعنى (أي: قائمة على التدوير المُوسَّع، قائمة على الهرم المميزات، وقائمة على نموذج المحولات البصرية) كأساسيات، وقمنا بتقييمها إلى جانب ReLeM على مجموعات البيانات الجديدة التي أنشأناها. نعتقد أن مجموعة البيانات FoodSeg103 (وملحقاتها FoodSeg154) والأنماط المُدرَّبة مسبقًا باستخدام ReLeM يمكن أن تُشكِّل معيارًا مرجعيًا لتسهيل الأبحاث المستقبلية في فهم صور الطعام بدقة عالية. ونُعلن عن إتاحة جميع هذه المجموعات والأساليب للجمهور من خلال الرابط: \url{https://xiongweiwu.github.io/foodseg103.html}.