شبكة HTNet للاعتراف بالتعبيرات الدقيقة على الوجه

التعبير عن الوجه مرتبط بانقباضات عضلات الوجه، وتحتسب حركات العضلات المختلفة مع الحالات العاطفية المختلفة. بالنسبة للاعتراف بالتعبيرات الدقيقة، تكون حركات العضلات غالبًا خفية، مما يؤثر سلبًا على أداء خوارزميات الاعتراف بالمشاعر الوجهية الحالية. تستخدم معظم الأساليب الموجودة آليات الذكاء الذاتي لتقاطع العلاقات بين الرموز في التسلسل، ولكنها لا تأخذ في الاعتبار العلاقات المكانية الأساسية بين معالم الوجه. يمكن أن يؤدي هذا إلى أداء غير مثالي في مهام الاعتراف بالتعبيرات الدقيقة. لذلك، يعد تعلم اكتشاف حركات عضلات الوجه تحديًا رئيسيًا في مجال الاعتراف بالتعبيرات الدقيقة.في هذه الورقة البحثية، نقترح شبكة متранسة هرمية (Hierarchical Transformer Network - HTNet) لاكتشاف المناطق الحرجة لحركة عضلات الوجه. تتكون HTNet من مكونين رئيسيين: طبقة المتراصة التي تستفيد من الخصائص الزمنية المحلية وطبقة التجميع التي تستخلص الخصائص السيمانتيكية المحلية والعالمية للوجه. بشكل خاص، تقوم HTNet بتقسيم الوجه إلى أربع مناطق وجهية مختلفة: منطقة الشفة اليمنى، منطقة العين اليمنى، منطقة العين اليسرى ومنطقة الشفة اليُسرى. تُستخدم الطبقة المتراصة للتركيز على تمثيل الحركات العضلية الصغيرة المحلية باستخدام الذكاء الذاتي المحلي في كل منطقة. أما الطبقة التجميعية فتُستخدم لتعلم التفاعلات بين مناطق العيون ومناطق الشفتين.أظهرت التجارب على أربعة قواعد بيانات عامة للتعبيرات الدقيقة أن النهج المقترح يتفوق بشكل كبير على الأساليب السابقة. يمكن الحصول على الأكواد والنموذج من الرابط التالي:\url{https://github.com/wangzhifengharrison/HTNet}