HyperAIHyperAI
منذ 18 أيام

تقييم متعدد الوسائط للشخصية الظاهرة باستخدام الانتباه المميز والقيود المتناسقة على الخطأ

{Hamdi Dibeklioğlu, Uğur Güdükbay, Süleyman Aslan}
الملخص

أصبحت الحوسبة الشخصية والحوسبة العاطفية، حيث يُعدّ التعرف على السمات الشخصية أمراً أساسياً، موضوعاً يحظى باهتمام متزايد في العديد من مجالات البحث مؤخراً. نقترح منهجاً جديداً للتعرف على السمات الخمس الكبرى للشخصية من مقاطع الفيديو. ولتحقيق ذلك، نستخدم أربع طرائق مختلفة، وهي: المظهر البيئي (المشهد)، والمظهر الوجهي، والصوت، والمحادثة المكتوبة. من خلال شبكة فرعية متخصصة لكل طريقة من هذه الطرق، يتعلم نموذجنا تمثيلات موثوقة مخصصة لكل طريقة، ثم يتم دمجها باستخدام آلية انتباه تقوم بإعادة توزيع الأوزان لكل بعد من أبعاد هذه التمثيلات للحصول على تركيبة مثلى للمعلومات متعددة الطُرق. وتم استخدام دالة خسارة جديدة لفرض أن النموذج يُعطي أهمية متساوية لكل من السمات الشخصية المراد تقديرها، من خلال قيد اتساق يحافظ على أخطاء السمات الخاصة ببعضها البعض قدر الإمكان. ولتعزيز موثوقية النموذج بشكل أكبر، نستخدم هياكل حديثة مُدرّبة مسبقاً (مثل ResNet، VGGish، ELMo) كأساس للشبكات الفرعية المخصصة لكل طريقة، وتُكمل هذه الهياكل بشبكات LSTM متعددة الطبقات لالتقاط الديناميكيات الزمنية. ولتقليل التعقيد الحسابي في التحسين متعدد الطُرق، نستخدم نموذجاً ثنائي المرحلة، حيث يتم تدريب الشبكات الفرعية المخصصة لكل طريقة بشكل منفصل أولاً، ثم يتم تدريب الشبكة الكاملة بشكل دقيق لنموذج متعدد الطُرق بشكل مشترك. وعند تقييم نموذجنا على مجموعة بيانات ChaLearn First Impressions V2 الشاملة، ندرس موثوقية النموذج ونستكشف مدى إفادة الطرائق المدروسة. تُظهر النتائج التجريبية فعالية الآلية الانتباه المقترحة والقيد الاتساق في الأخطاء. وبينما تُحقق المعلومات الوجهية أفضل أداء ضمن الطرائق الفردية، فإن استخدام جميع الطرائق الأربعة يُسهم في تحقيق دقة متوسطة تبلغ 91.8%، ما يُعد تحسيناً على أحدث النماذج في تحليل الشخصية التلقائي.