Command Palette
Search for a command to run...
ميكسيوغرامنت وميليوب: طرق تعزيز للاعتراف بالتعبيرات الوجهية
ميكسيوغرامنت وميليوب: طرق تعزيز للاعتراف بالتعبيرات الوجهية
Andreas Psaroudakis Dimitrios Kollias
الملخص
لقد لاقت تقنية التعرف التلقائي على التعبيرات الوجهية (FER) اهتمامًا متزايدًا خلال العشرين عامًا الماضية، نظرًا للدور المركزي الذي تلعبه التعبيرات الوجهية في التواصل البشري. تستخدم معظم مناهج FER الشبكات العصبية العميقة (DNNs)، التي تمثل أدوات قوية في مجال تحليل البيانات. ومع ذلك، وعلى الرغم من قوتها، فإن هذه الشبكات عرضة لمشكلة التكيف الزائد (overfitting)، حيث تميل غالبًا إلى حفظ بيانات التدريب بشكل آلي. علاوة على ذلك، لا تتوفر حاليًا العديد من قواعد البيانات الكبيرة الخاصة بالتعبيرات الوجهية في البيئات الحقيقية (أي في بيئات غير مُحدَّدة). ولتقليل هذه المشكلة، تم اقتراح عدد من تقنيات تكبير البيانات (data augmentation). وتُعد تكبير البيانات وسيلة لزيادة تنوع البيانات المتاحة من خلال تطبيق تحولات محدودة على البيانات الأصلية. واحدة من هذه التقنيات، التي ساهمت إيجابيًا في العديد من المهام التصنيفية، هي تقنية Mixup. وفقًا لهذه التقنية، يتم تدريب الشبكة العصبية العميقة على مجموعات خطية محددة (convex combinations) من أزواج من الأمثلة مع العلامات المرتبطة بها. في هذا البحث، ندرس فعالية تقنية Mixup في سياق FER في البيئات الحقيقية، حيث تتسم البيانات بتنوع كبير في وضعية الرأس، وظروف الإضاءة، والخلفيات، والسياقات. ثم نقترح استراتيجية جديدة لتكبير البيانات تعتمد على Mixup، وتُسمى MixAugment. وفقًا لهذه الاستراتيجية، يتم تدريب الشبكة بشكل متزامن على مجموعة مختلطة من الأمثلة الافتراضية (الافتراضية) والأمثلة الحقيقية، حيث تساهم جميع هذه الأمثلة في دالة الخسارة الكلية. ونقوم بدراسة تجريبية شاملة تثبت فعالية MixAugment مقارنة بـ Mixup وبعدد من الطرق المتطورة حديثًا. كما نستكشف بالتفصيل دمج تقنية Dropout مع Mixup وMixAugment، بالإضافة إلى دمج تقنيات تكبير بيانات أخرى مع MixAugment.