التعبير، والانفعال، وتمييز وحدة الفعل: Aff-Wild2، والتعلم متعدد المهام وArcFace

تُعد الحوسبة العاطفية محدودة إلى حد كبير من حيث الموارد المتاحة من البيانات. أصبح من الضروري جمع وتصنيف مجموعات بيانات متنوعة من البيئات الواقعية (in-the-wild) مع انتشار نماذج التعلم العميق، التي أصبحت الطريقة الافتراضية لمعالجة أي مهمة في مجال الرؤية الحاسوبية. تم مؤخرًا اقتراح بعض قواعد البيانات من البيئات الواقعية. ومع ذلك، تُعاني هذه القواعد من: (أ) حجمها الصغير، (ب) عدم توفرها للبيانات الصوتية والبصرية معًا، (ج) تغطية جزئية فقط بالتصنيف اليدوي، (د) عدد محدود من الأشخاص المشاركين، أو (هـ) عدم وجود تسمية كاملة لجميع المهام الأساسية المتعلقة بالسلوك (تقدير الشعور (القيمة والعاطفة)، كشف وحدات الفعل، وتصنيف التعبيرات الأساسية). وللتغلب على هذه التحديات، قمنا بتوسيع قاعدة البيانات الواقعية الأكبر المتاحة حاليًا (Aff-Wild) بشكل كبير لدراسة المشاعر المستمرة مثل القيمة والعاطفة. علاوةً على ذلك، قمنا بتصنيف جزء من قاعدة البيانات بتصنيفات للتعبيرات الأساسية ووحدات الفعل. نتيجة لذلك، أصبح من الممكن لأول مرة إجراء دراسة متكاملة على جميع أنواع الحالات السلوكية الثلاث. وسُمّيت هذه القاعدة بيانات Aff-Wild2. أجرينا تجارب واسعة باستخدام هياكل شبكات عصبية تلافيفية (CNN) وشبكات عصبية تلافيفية-متحركة (CNN-RNN) التي تعتمد على الوسائط البصرية والصوتية؛ حيث تم تدريب هذه الشبكات على بيانات Aff-Wild2، ثم تم تقييم أدائها على 10 قواعد بيانات عاطفية متاحة علنًا. ونُظهر أن الشبكات تحقق أداءً متقدمًا على مستوى التقنية (state-of-the-art) في مهام التعرف على العواطف. بالإضافة إلى ذلك، قمنا بتعديل دالة الخسارة ArcFace في سياق التعرف على العواطف، واستخدمناها لتدريب شبكتين جديدتين على بيانات Aff-Wild2، ثم أعدنا تدريبهما على مجموعة متنوعة من قواعد البيانات الأخرى الخاصة بالتعرف على التعبيرات. وتبين أن الشبكات المُعدّة بهذه الطريقة تُحسّن الأداء الحالي المُستوى المُتقدم في هذا المجال. تتوفر قاعدة البيانات، ونماذج التعرف على العواطف، وشفرة المصدر على الرابط: http://ibug.doc.ic.ac.uk/resources/aff-wild2.