FoodSAM: التجزئة لأي طعام

في هذه الورقة، نستعرض القدرة على التحديد الصفرية (zero-shot) لنموذج Segment Anything (SAM) في تجزئة صور الطعام. وللتغلب على نقص المعلومات الخاصة بالفئات في الأقنعة التي يُولّدها SAM، نقترح إطارًا جديدًا يُسمى FoodSAM. يُعد هذا النهج المبتكر مُدمجًا بين القناع الشامل المعنى (coarse semantic mask) والأقنعة الناتجة عن SAM لتحسين جودة التجزئة المعنى. علاوةً على ذلك، نلاحظ أن المكونات الغذائية يمكن اعتبارها ككائنات مستقلة، مما دفعنا إلى إجراء تجزئة للنماذج (instance segmentation) على صور الطعام. كما يمتد نطاق القدرة الصفرية لـ FoodSAM ليشمل التجزئة البانوبتيك (panoptic segmentation) من خلال دمج مُكتشف الكائنات، مما يمكّن FoodSAM من التقاط معلومات الكائنات غير الغذائية بشكل فعّال. مستلهمين من النجاح الأخير للتجزئة القابلة للتحفيز (promptable segmentation)، نوسع أيضًا FoodSAM ليشمل التجزئة القابلة للتحفيز، مع دعم مختلف أشكال التحفيز (prompt variants). ونتيجة لذلك، يبرز FoodSAM كحل شامل قادر على تجزئة الأطعمة على مستويات متعددة من الدقة. ومن الملفت بشكل خاص أن هذا الإطار الرائد هو أول عمل على الإطلاق يحقق التجزئة الافتراضية (instance)، والبانيبتيك (panoptic)، والقابلة للتحفيز (promptable) في صور الطعام. تُظهر التجارب الواسعة إمكانية تطبيق FoodSAM وأداؤه المُبهر، مما يؤكد إمكانات SAM كأداة بارزة ومؤثرة في مجال تجزئة صور الطعام. ونُطلق كودنا على الرابط التالي: https://github.com/jamesjg/FoodSAM.