HyperAIHyperAI
منذ 17 أيام

إلى التصنيف الدقيق للصور باستخدام الشبكات التلافيفية التوليدية وكشف نقاط الوجه

Mahdi Darvish, Mahsa Pouramini, Hamid Bahador
إلى التصنيف الدقيق للصور باستخدام الشبكات التلافيفية التوليدية وكشف نقاط الوجه
الملخص

تظل التصنيف الدقيق تحديًا كبيرًا نظرًا لضرورة التمييز بين الفئات من خلال تعلّم الفروقات المعقدة والمحلية. وتكمن الصعوبة في هذا التحدي في التنوّع الكبير في وضعية الكائنات، ومقاساتها، وموقعها داخل الصورة، مما يزيد من تعقيد المهمة. وعلى الرغم من أن نماذج التحويل البصري الحديثة (Vision Transformer) تحقق أداءً عاليًا، إلا أنها تتطلب كمًّا كبيرًا من البيانات المدخلة. وللتعامل مع هذه المشكلة، استخدمنا بشكل فعّال تكبير البيانات القائم على الشبكات التوليدية التنافسية (GAN) لإنشاء مثيلات إضافية للبيانات. اخترنا مجموعة بيانات أكسفورد-آيييت بيتس (Oxford-IIIT Pets) كمجموعة بيانات لتجربتنا، حيث تتضمن 37 سلالة من القطط والكلاب، مع تفاوتات في المقاس والوضعية والإضاءة، ما يُضاعف صعوبة مهمة التصنيف الدقيق. علاوةً على ذلك، قمنا بتحسين أداء النموذج الحديث للشبكات التوليدية التنافسية (GAN)، وهو نموذج StyleGAN2-ADA، لتمكينه من إنتاج صور أكثر واقعية مع منع التوافق الزائد (Overfitting) مع مجموعة التدريب. وتم ذلك من خلال تدريب نسخة مخصصة من MobileNetV2 للتنبؤ بعلامات الوجه الحيوانية؛ ثم قمنا بقص الصور وفقًا لهذه العلامات. وأخيرًا، قمنا بدمج الصور الاصطناعية مع مجموعة البيانات الأصلية، وقمنا بمقارنة طريقة الاقتراح الخاصة بنا مع تقنيات تكبير البيانات التقليدية باستخدام GAN، ومع عدم استخدام أي تكبير، باستخدام مجموعات مختلفة من بيانات التدريب. وتم التحقق من صحة العمل من خلال تقييم دقة التصنيف الدقيق للصور باستخدام نموذج التحويل البصري الحديث (ViT).