HyperAIHyperAI

Command Palette

Search for a command to run...

POSTER++: شبكة للكشف عن التعبيرات الوجهية أبسط وأقوى

Jiawei Mao Rui Xu Xuesong Yin Yuanqi Chang Binling Nie Aibin Huang

الملخص

تُعدّ عملية تمييز التعبيرات الوجهية (FER) عنصرًا مهمًا في مجموعة واسعة من التطبيقات الواقعية مثل التفاعل بين الإنسان والكمبيوتر. يحقق نموذج POSTER أداءً متميزًا (SOTA) في مجال FER من خلال دمج فعّال بين ميزات نقاط الوجه (facial landmarks) والصور باستخدام تصميم مزدوج التدفق مع تبادل هرمي متعدد المستويات. ومع ذلك، فإن بنية POSTER معقدة بشكل لا يُجادل فيه، مما يؤدي إلى تكاليف حسابية عالية جدًا. ولتخفيف الضغط الحسابي المفروض على POSTER، نقترح في هذا البحث نموذج POSTER++. يُحسّن POSTER++ على النموذج الأصلي من ثلاث جوانب رئيسية: التبادل المتقاطع (cross-fusion)، التدفق المزدوج (two-stream)، واستخراج الميزات متعددة المقياس (multi-scale feature extraction). في جانب التبادل المتقاطع، نستخدم آلية انتباه مبنيّة على النوافذ (window-based cross-attention) بدلًا من الآلية التقليدية (vanilla cross-attention). كما نُزيل فرع الصورة إلى نقاط الوجه في تصميم التدفق المزدوج. أما في مجال استخراج الميزات متعددة المقياس، فيُدمج POSTER++ بين الصور وميزات نقاط الوجه على عدة مقياس، مما يُستبدل بهيكل الهرم في النموذج الأصلي. أظهرت التجارب الواسعة على عدة مجموعات بيانات قياسية أن POSTER++ يحقق أداءً متميزًا (SOTA) في FER مع أقل تكلفة حسابية ممكنة. على سبيل المثال، حقق POSTER++ نسب دقة بلغت 92.21% على مجموعة RAF-DB، و67.49% على AffectNet (7 فئات)، و63.77% على AffectNet (8 فئات)، باستخدام فقط 8.4 مليار عملية فلوبت (FLOPs) و43.7 مليون معلمة (Param). يُظهر هذا الفعالية الفعلية لتحسيناتنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp