تحسين خطط التكبير والتقييم لتصنيع الصور المعنوية

رغم أن تكبير البيانات (Data Augmentation) يُعد تقنية شائعة لتعزيز أداء الشبكات العصبية العميقة، فإن القليل من الاهتمام قد تم إيلاؤه لتطوير استراتيجيات تكبير مخصصة للشبكات التوليدية التنافسية (GANs). وللإجابة على هذه الفجوة، نقدّم خطة تكبير جديدة مصممة خصيصًا لنماذج التوليد الصوري المعنوي القائمة على GAN. نقترح تشوّيهًا عشوائيًا لأشكال الكائنات في خرائط التسمية المعنوية المستخدمة كمدخل للـ Generator. وتكمن الفائدة في التباينات الهيكلية المحلية بين خرائط التسمية المُشَوّهة وغير المُشَوّهة، مما يمكّن الشبكة التوليدية من تعلّم تفاصيل أكثر دقة حول البنية والهندسة في المشهد، وبالتالي تحسين جودة الصور المولّدة. وعند مقارنة النماذج المُكَبّرة من GAN بنماذجها الأصلية (vanilla)، لاحظنا أن مقاييس التقييم المُعلنة في الدراسات السابقة حول التوليد الصوري المعنوي تكون متحيزة بشدة تجاه فئات معنوية معينة، وذلك لأنها تستمد من شبكة تقطيع مُدرّبة مسبقًا خارجية. ولذلك نقترح تحسين أسلوب التقييم المُتعارف عليه في مجال التوليد الصوري المعنوي من خلال تحليل أداء الصور المولّدة بشكل منفصل على الفئات المتحيزة وغير المتحيزة بالنسبة للشبكة التقطيعية المعطاة. وأخيرًا، نُظهر تحسينات قوية من حيث الجوانب الكمية والكيفية التي حققتها خطة التكبير لدينا، على كلا التقسيمات الفئوية، باستخدام نماذج حديثة جدًا للتوليد الصوري المعنوي عبر ثلاث مجموعات بيانات مختلفة. وعلى المتوسط عبر مجموعات بيانات COCO-Stuff وADE20K وCityscapes، تفوق النماذج المُكَبّرة نماذجها الأصلية بنسبة تقارب 3 نقاط في mIoU و10 نقاط في FID.