HyperAIHyperAI
منذ 17 أيام

تعلم مجموعة متعددة من الفئات للتعرف الدقيق على الأطعمة

{Petia Radeva, Marc Bolaños, Bhalaji Nagarajan, Javier Ródenas}
الملخص

تمثّل عملية تمييز صور الطعام مهمة معقدة في مجال الرؤية الحاسوبية، نظرًا إلى عدد كبير من فئات الطعام الدقيقة (fine-grained). وتُركّز المهام الخاصة بالتمييز الدقيق على تعلّم التفاصيل التمييزية الدقيقة التي تُميّز بين الفئات المتشابهة. في هذا البحث، نقدّم طريقة جديدة لتحسين تصنيف الفئات التي يصعب التمييز بينها باستخدام تقنية التعلّم متعدد المجموعات الفرعية (Multi-Subsets learning). وباستخدام شبكة مُدرّبة مسبقًا، نُنظّم الفئات إلى عدة مجموعات فرعية باستخدام تقنية التجميع (clustering). ثم نُدمج هذه المجموعات الفرعية في هيكل نموذج متعدد الرؤوس (multi-head model). ويتكوّن هذا الهيكل من ثلاث أجزاء متميزة: أولاً، نستخدم عدة كتل مشتركة لتعلم تمثيل عام للبيانات. ثانيًا، نستخدم كتل متخصصة متعددة تركز على مجموعات فرعية معينة تُعدّ صعبة التمييز. وأخيرًا، نستخدم طبقة اتصال كامل (fully connected layer) لوزن المجموعات الفرعية المختلفة بطريقة نهائية (end-to-end) من خلال دمج مخرجات الخلايا العصبية. وقد قمنا بتحقق من أداء الطريقة المقترحة باستخدام نموذجين حديثين من نماذج المحولات البصرية (vision transformers) من الطراز الرائد على ثلاث مجموعات بيانات عامة لتمييز الطعام. وقد أظهرت النتائج نجاح طريقة التعلّم في تحسين تمييز الفئات المُربكة، وتفوّقنا على أحدث النماذج المُتاحة في جميع المجموعات الثلاث.