HyperAIHyperAI
منذ 17 أيام

POSTER++: شبكة للكشف عن التعبيرات الوجهية أبسط وأقوى

Jiawei Mao, Rui Xu, Xuesong Yin, Yuanqi Chang, Binling Nie, Aibin Huang
POSTER++: شبكة للكشف عن التعبيرات الوجهية أبسط وأقوى
الملخص

تُعدّ عملية تمييز التعبيرات الوجهية (FER) عنصرًا مهمًا في مجموعة واسعة من التطبيقات الواقعية مثل التفاعل بين الإنسان والكمبيوتر. يحقق نموذج POSTER أداءً متميزًا (SOTA) في مجال FER من خلال دمج فعّال بين ميزات نقاط الوجه (facial landmarks) والصور باستخدام تصميم مزدوج التدفق مع تبادل هرمي متعدد المستويات. ومع ذلك، فإن بنية POSTER معقدة بشكل لا يُجادل فيه، مما يؤدي إلى تكاليف حسابية عالية جدًا. ولتخفيف الضغط الحسابي المفروض على POSTER، نقترح في هذا البحث نموذج POSTER++. يُحسّن POSTER++ على النموذج الأصلي من ثلاث جوانب رئيسية: التبادل المتقاطع (cross-fusion)، التدفق المزدوج (two-stream)، واستخراج الميزات متعددة المقياس (multi-scale feature extraction). في جانب التبادل المتقاطع، نستخدم آلية انتباه مبنيّة على النوافذ (window-based cross-attention) بدلًا من الآلية التقليدية (vanilla cross-attention). كما نُزيل فرع الصورة إلى نقاط الوجه في تصميم التدفق المزدوج. أما في مجال استخراج الميزات متعددة المقياس، فيُدمج POSTER++ بين الصور وميزات نقاط الوجه على عدة مقياس، مما يُستبدل بهيكل الهرم في النموذج الأصلي. أظهرت التجارب الواسعة على عدة مجموعات بيانات قياسية أن POSTER++ يحقق أداءً متميزًا (SOTA) في FER مع أقل تكلفة حسابية ممكنة. على سبيل المثال، حقق POSTER++ نسب دقة بلغت 92.21% على مجموعة RAF-DB، و67.49% على AffectNet (7 فئات)، و63.77% على AffectNet (8 فئات)، باستخدام فقط 8.4 مليار عملية فلوبت (FLOPs) و43.7 مليون معلمة (Param). يُظهر هذا الفعالية الفعلية لتحسيناتنا.

POSTER++: شبكة للكشف عن التعبيرات الوجهية أبسط وأقوى | أحدث الأوراق البحثية | HyperAI