FMix: تحسين تعزيز البيانات باستخدام العينات المختلطة

لقد لاقت تقنية تضخيم البيانات المختلطة (MSDA) اهتمامًا متزايدًا في السنوات الأخيرة، مع ظهور العديد من التحولات الناجحة مثل MixUp وCutMix. من خلال دراسة المعلومات المتبادلة بين الدالة التي يتعلمها نموذج VAE من البيانات الأصلية والبيانات المُضخَّمة، نُظهر أن MixUp يُشوِّه الدوال المُتعلّمة بطريقة لا يحدثها CutMix. ونُثبت هذا التأثير أكثر من خلال إظهار أن MixUp يعمل كشكل من أشكال التدريب المضاد (adversarial training)، مما يُعزز المقاومة للهجمات مثل Deep Fool والضوضاء الموحدة (Uniform Noise)، التي تُنتج أمثلة مشابهة لتلك التي يولدها MixUp. ونُجادل بأن هذا التشويه يمنع النماذج من تعلّم الخصائص الخاصة بالعينات في البيانات، مما يُسهم في تحسين الأداء العام. في المقابل، نقترح أن CutMix يعمل بشكل أكثر تشابهًا مع التضخيم التقليدي، حيث يُحسّن الأداء من خلال منع التذكّر (memorisation) دون تشويه توزيع البيانات. ومع ذلك، نجادل بأن تقنية MSDA تعتمد على CutMix ولكن تُضفي أقنعة ذات أشكال عشوائية غير محدودة (وليس فقط مربعات)، يمكن أن تُعزز من منع التذكّر مع الحفاظ على توزيع البيانات بنفس الطريقة. من أجل تحقيق ذلك، نقترح FMix، وهي تقنية تضخيم بيانات مختلطة تستخدم أقنعة ثنائية عشوائية تم الحصول عليها بتطبيق حدّ على صور منخفضة التردد تم عينتها من فضاء فورييه (Fourier space). تُمكّن هذه الأقنعة العشوائية من اتخاذ طرق متنوعة جدًا، ويمكن إنشاؤها للاستخدام مع البيانات ذات البعد الواحد، والبعدين، والبعد الثلاثي. تُحسّن FMix الأداء مقارنة بـ MixUp وCutMix، دون زيادة في وقت التدريب، لعدة نماذج عبر مجموعة متنوعة من مجموعات البيانات وسياقات المشكلات، وتُحقّق نتيجة جديدة في حالة الأداء الأفضل (state-of-the-art) لنموذج واحد على CIFAR-10 دون استخدام بيانات خارجية. وأخيرًا، نُظهر أن أحد النتائج المترتبة على الفرق بين تقنيات التضخيم بالاستيفاء (مثل MixUp) وتقنيات التضخيم بالقناع (مثل FMix) هو إمكانية دمج النوعين معًا لتحسين الأداء بشكل أكبر. وتُقدَّم رموز جميع التجارب على الرابط التالي: https://github.com/ecs-vlc/FMix.