تقدمة التصنيف الدقيق من خلال الزيادة الحافظة على البنية والموضوع

التصنيف البصري الدقيق (FGVC) يشمل تصنيف الفئات الفرعية ذات الصلة الوثيقة. يعتبر هذا المهمة صعبة بسبب الاختلافات الدقيقة بين الفئات والاختلاف الكبير داخل الفئة الواحدة. علاوة على ذلك، تكون مجموعات البيانات الخاصة بـ FGVC عادة صغيرة وصعبة التجميع، مما يبرز الحاجة الملحة لتوسيع البيانات بشكل فعال. تقدم التطورات الحديثة في نماذج التشتت من النص إلى الصورة إمكانيات جديدة لتوسيع مجموعات بيانات التصنيف. رغم استخدام هذه النماذج لتوليد بيانات التدريب للمهام التصنيفية، فإن فعاليتها في تدريب نماذج FGVC على كامل مجموعة البيانات لا تزال قليلة الاستكشاف. تعاني التقنيات الحديثة التي تعتمد على توليد الصور من النص أو تحويل الصور (Text2Image أو Img2Img) غالبًا من صعوبة إنتاج صور تمثل الفئة بدقة مع تعديلها بما يزيد بشكل كبير من تنوع مجموعة البيانات. لمواجهة هذه التحديات، نقدم SaSPA: توسيع البيانات الحافظ للهيكل والموضوع (Structure and Subject Preserving Augmentation). على عكس الطرق الحديثة، لا يستخدم أسلوبنا صورًا حقيقية كإرشاد، مما يزيد من مرونة الإنتاج ويحفز التنوع الأكبر. لضمان تمثيل دقيق للفئة، نستخدم آليات شرطية، وبشكل خاص عبر الشرط على حواف الصورة وتمثيل الموضوع. نقوم بإجراء تجارب واسعة ونقيس أداء SaSPA مقابل طرق توسيع البيانات الجينيرالية التقليدية والحديثة. يتفوق SaSPA باستمرار على جميع الخطوط الأساسية المعترف بها في العديد من الإعدادات، بما في ذلك تدريب كامل مجموعة البيانات، وميول السياق، والتصنيف القليل الإجراء (few-shot classification). بالإضافة إلى ذلك، تكشف نتائجنا أنماطاً مثيرة للاهتمام في استخدام البيانات المصنعة لنماذج FGVC؛ فعلى سبيل المثال، نجد علاقة بين كمية البيانات الحقيقية المستخدمة والنسبة المثلى للبيانات المصنعة. يمكن الوصول إلى الكود في https://github.com/EyalMichaeli/SaSPA-Aug.