تعلم استراتيجيات زيادة البيانات للكشف عن الأشياء

تعتبر زيادة البيانات (Data Augmentation) مكونًا حاسمًا في تدريب نماذج التعلم العميق. رغم أن زيادة البيانات أثبتت فعاليتها بشكل كبير في تصنيف الصور، إلا أن إمكاناتها لم يتم دراستها بشكل كافٍ فيما يتعلق بكشف الأشياء. نظرًا للتكلفة الإضافية لتحديد الصور (Annotation) لكشف الأشياء، قد تكون زيادة البيانات ذات أهمية أكبر لهذه المهمة في رؤية الحاسوب. في هذا البحث، ندرس تأثير زيادة البيانات على كشف الأشياء. أولاً، نوضح أن عمليات زيادة البيانات المستوحاة من تصنيف الصور قد تكون مفيدة لتدريب نماذج الكشف، ولكن التحسين محدود. لذلك، نستكشف كيف يمكن لسياسات زيادة البيانات المتخصصة والمتعلمة أن تحسن أداء التعميم لنماذج الكشف. من المهم الإشارة إلى أن هذه السياسات تؤثر فقط على التدريب ولا تتغير عند التقييم. تشير التجارب على مجموعة بيانات COCO إلى أن سياسة زيادة البيانات المحسنة تزيد دقة الكشف بأكثر من +2.3 mAP (متوسط الدقة المرتفعة)، وتسمح لنموذج الاستدلال الواحد بتحقيق دقة قياسية تبلغ 50.7 mAP. من المهم أيضًا أنه يمكن نقل أفضل سياسة تم العثور عليها في COCO دون تغيير إلى مجموعات بيانات وكاشفات أخرى لتحسين دقة التنبؤ. على سبيل المثال، تحسن أفضل سياسة زيادة بيانات تم تحديدها باستخدام COCO النموذج القوي الأساسي على PASCAL-VOC بمقدار +2.7 mAP (متوسط الدقة المرتفعة). كما كشفت نتائجنا أيضًا أن سياسة زيادة البيانات التي تم تعلمها هي أفضل من طرق تنظيم الهياكل الأكثر حداثة لكشف الأشياء، حتى عند النظر إلى النماذج الأساسية القوية. يتوفر الرمز البرمجي لتدريب النماذج باستخدام السياسة المتعلمة عبر الإنترنت على الرابط https://github.com/tensorflow/tpu/tree/master/models/official/detection