منذ 8 أشهر

الملخص

لقد لاقت تقنية التعرف التلقائي على التعبيرات الوجهية (FER) اهتمامًا متزايدًا خلال العشرين عامًا الماضية، نظرًا للدور المركزي الذي تلعبه التعبيرات الوجهية في التواصل البشري. تستخدم معظم مناهج FER الشبكات العصبية العميقة (DNNs)، التي تمثل أدوات قوية في مجال تحليل البيانات. ومع ذلك، وعلى الرغم من قوتها، فإن هذه الشبكات عرضة لمشكلة التكيف الزائد (overfitting)، حيث تميل غالبًا إلى حفظ بيانات التدريب بشكل آلي. علاوة على ذلك، لا تتوفر حاليًا العديد من قواعد البيانات الكبيرة الخاصة بالتعبيرات الوجهية في البيئات الحقيقية (أي في بيئات غير مُحدَّدة). ولتقليل هذه المشكلة، تم اقتراح عدد من تقنيات تكبير البيانات (data augmentation). وتُعد تكبير البيانات وسيلة لزيادة تنوع البيانات المتاحة من خلال تطبيق تحولات محدودة على البيانات الأصلية. واحدة من هذه التقنيات، التي ساهمت إيجابيًا في العديد من المهام التصنيفية، هي تقنية Mixup. وفقًا لهذه التقنية، يتم تدريب الشبكة العصبية العميقة على مجموعات خطية محددة (convex combinations) من أزواج من الأمثلة مع العلامات المرتبطة بها. في هذا البحث، ندرس فعالية تقنية Mixup في سياق FER في البيئات الحقيقية، حيث تتسم البيانات بتنوع كبير في وضعية الرأس، وظروف الإضاءة، والخلفيات، والسياقات. ثم نقترح استراتيجية جديدة لتكبير البيانات تعتمد على Mixup، وتُسمى MixAugment. وفقًا لهذه الاستراتيجية، يتم تدريب الشبكة بشكل متزامن على مجموعة مختلطة من الأمثلة الافتراضية (الافتراضية) والأمثلة الحقيقية، حيث تساهم جميع هذه الأمثلة في دالة الخسارة الكلية. ونقوم بدراسة تجريبية شاملة تثبت فعالية MixAugment مقارنة بـ Mixup وبعدد من الطرق المتطورة حديثًا. كما نستكشف بالتفصيل دمج تقنية Dropout مع Mixup وMixAugment، بالإضافة إلى دمج تقنيات تكبير بيانات أخرى مع MixAugment.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار