تعلم تمثيلات العواطف من التواصل اللفظي وغير اللفظي

فهم العواطف هو مكون أساسي ولكن شديد الصعوبة في الذكاء الاصطناعي العام. وقد أدى نقص المجموعات الضخمة من البيانات المصححة بشكل واسع إلى تأخر التقدم في هذا المجال بشكل كبير. نقدم هنا EmotionCLIP، أول نموذج للتدريب الأولي يستخرج تمثيلات عاطفية بصرية من التواصل اللفظي وغير اللفظي باستخدام بيانات غير منقحة فقط. بالمقارنة مع التسميات الرقمية أو الوصف المستخدم في الأساليب السابقة، فإن التواصل يحتوي على معلومات عاطفية بشكل طبيعي. بالإضافة إلى ذلك، فإن استخلاص التمثيلات العاطفية من التواصل أكثر توافقًا مع عملية التعلم البشرية. نوجه EmotionCLIP للاهتمام بالدلائل العاطفية غير اللفظية من خلال ترميز السياق المعتمد على الموضوع والدلائل العاطفية اللفظية باستخدام التعلم التبايني المعتمد على المشاعر (sentiment-guided contrastive learning). تؤكد التجارب الواسعة فعالية وقابلية نقل EmotionCLIP. باستخدام بروتوكول تقييم الاستقراء الخطي فقط، يتفوق EmotionCLIP على أفضل الأساليب الرقابية للاعتراف بالعواطف البصرية ويضاهي العديد من الأساليب متعددة الوسائط عبر مختلف المقاييس. نتوقع أن يؤدي ظهور EmotionCLIP إلى حل المشكلة السائدة لندرة البيانات في فهم العواطف، وبالتالي تعزيز التقدم في المجالات ذات الصلة. يمكن الحصول على الكود والنموذج المدرب مسبقًا من https://github.com/Xeaver/EmotionCLIP.