تقدم نماذج اللغة الكبيرة جدًا سياقًا أفضل لفهم العواطف من خلال الاستدلال بالعقل السليم

التعرف على العواطف في السياق يشمل تحديد العواطف الظاهرة للفرد، مع الأخذ بعين الاعتبار الإشارات السياقية من المشهد المحيط. وقد تضمنت الأساليب السابقة لهذه المهمة تصميم هندسات مشهد صريحة أو دمج معلومات خارجية مرتبطة بالمشهد، مثل التسميات التوضيحية. ومع ذلك، فإن هذه الأساليب غالباً ما تستفيد من معلومات سياقية محدودة أو تعتمد على خطوط تدريب معقدة. في هذا العمل، نستغل القدرات الثورية لنموذج الرؤية واللغة الكبيرة (VLLM) لتعزيز تصنيف العواطف في السياق دون إدخال تعقيدات إلى عملية التدريب باستخدام أسلوب ذو مرحلتين. في المرحلة الأولى، نقترح استخدام النموذج VLLM لإنشاء وصف بلغة طبيعية للعواطف الظاهرة للموضوع بالنسبة للمشهد البصري. وفي المرحلة الثانية، يتم استخدام هذه الوصفات كمعلومات سياقية، بالإضافة إلى المدخل البصري، لتدريب هندسة قائمة على المحول (Transformer) تقوم بدمج الخصائص النصية والبصرية قبل مهمة التصنيف النهائي. تظهر نتائج تجاربنا أن الخصائص النصية والبصرية تحتوي على معلومات مكملة وأن هندستنا المدمجة تتفوق بشكل كبير على الوسائل الفردية دون الحاجة إلى أي أساليب تدريب معقدة. قمنا بتقييم أسلوبنا على ثلاثة مجموعات بيانات مختلفة وهي EMOTIC و CAER-S و BoLD، وحققنا دقة رائدة أو مقاربة للأساليب الأكثر تعقيداً في جميع المجموعات البيانات والمقياسيات. سيتم جعل الكود متاحًا بشكل عام على موقع GitHub: https://github.com/NickyFot/EmoCommonSense.git