HyperAIHyperAI

Command Palette

Search for a command to run...

EmoCLIP: طريقة بصرية-لغوية لتمييز التعبيرات الوجهية في الفيديو دون تدريب مسبق

Niki Maria Foteinopoulou Ioannis Patras

الملخص

التعرف على التعبيرات الوجهية (FER) هو مهمة حاسمة في الحوسبة العاطفية، ولكن التركيز التقليدي على السبع عواطف الأساسية يحد من قابليته للتطبيق في الطيف العاطفي المعقد والمتنامي. لمعالجة مشكلة العواطف الجديدة والغير ملموسة الموجودة في FER الديناميكي في البيئات الحقيقية، نقترح نموذجًا جديدًا للرؤية واللغة يستخدم وصف النماذج على مستوى العينة (أي تسميات السياق أو التعبيرات أو الإشارات العاطفية) كإشراف بلغة طبيعية، بهدف تعزيز تعلم التمثيلات الكامنة الغنية، لتحقيق تصنيف بدون أمثلة سابقة (zero-shot classification). لاختبار هذا النهج، نقيم أداء النموذج المدرب باستخدام وصف النماذج على مستوى العينة في تصنيف بدون أمثلة سابقة على أربع قواعد بيانات شائعة لـ FER الديناميكي. تظهر نتائجنا أن هذا الأسلوب يؤدي إلى تحسينات كبيرة عند مقارنته بالطرق الأساسية. بخاصة بالنسبة لـ FER الفيديو بدون أمثلة سابقة، نتفوق على CLIP بنسبة تزيد عن 10٪ من حيث الاسترجاع المتوسط الموزون و5٪ من حيث الاسترجاع المتوسط غير الموزون في عدة قواعد بيانات. بالإضافة إلى ذلك، نقيم التمثيلات المستخرجة من الشبكة المدربة باستخدام وصف النماذج على مستوى العينة في مهمة تقدير أعراض الصحة النفسية، حيث نحقق أداءً مكافئًا أو أفضل من الأساليب الرائدة وأتفاقًا قويًا مع الخبراء البشريين. تحديدًا، نحقق معامل ارتباط بيرسون يصل إلى 0.85 في تقدير شدة أعراض الفصام، وهو ما يعادل اتفاق الخبراء البشريين. الرمز البرمجي متاح بشكل عام عبر الرابط: https://github.com/NickyFot/EmoCLIP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp