موديلات اللغة الكبيرة تتفوق في حل وإنشاء اختبارات الذكاء العاطفي بشكل مشابه للبشر
دراسة تكشف عن قدرة النماذج اللغوية الكبيرة على حل وإنشاء اختبارات الذكاء العاطفي خلفية وتعريف الذكاء العاطفي على مر حياتهم، يمكن للبشر تكوين علاقات اجتماعية مثمرة ومفيدة، حيث يتمتعون بقدرة على التعاطف مع الآخرين ومشاركة تجاربهم العاطفية. هذه القدرة تُعرف بالذكاء العاطفي (EI) وتتضمن إدارة، إدراك، وفهم المشاعر التي يختبرها الإنسان سواء بالنسبة لنفسه أو للآخرين. خلال العقود الماضية، طور علماء النفس اختبارات مختلفة لقياس الذكاء العاطفي، وهي تتضمن عادةً مشكلات عاطفية قد يواجهها الناس في حياتهم اليومية. الدراسة وأهدافها قامت باحثون من جامعة برن وجامعة جنيف بدراسة تهدف إلى تقييم قدرة النماذج اللغوية الكبيرة (LLMs)، وهي تقنيات التعلم الآلي التي تقف وراء الوكلاء المحادثين مثل ChatGPT، على حل وإنشاء اختبارات الذكاء العاطفي. نُشرت نتائج الدراسة في دورية Communications Psychology، وأظهرت أن هذه النماذج يمكنها حل هذه الاختبارات بمستوى يقارب الأداء البشري، مما يجعلها أداة واعدة لتطوير اختبارات ذكاء عاطفي مستقبلية. التجربة الأولى: حل الاختبارات بدأ الباحثون بالطلب من ستة نماذج لغوية كبرى، بما في ذلك ChatGPT-4، ChatGPT-o1، Gemini 1.5 flash، Copilot 365، Claude 3.5، Haiku، وDeepSeek V3، إكمال خمسة اختبارات ذكاء عاطفي تم تصميمها في الأصل للبشر. هذه الاختبارات تقدم سيناريوهات عاطفية قصيرة وتطلب من المشاركين تحديد أكثر ردود الفعل ذكاءً عاطفيًا، مثل تحديد ما قد يشعر به شخص ما أو كيف يمكن إدارة موقف عاطفي بشكل أفضل. ثم قاموا بمقارنة نتائج النماذج مع المتوسطات البشرية من دراسات سابقة. النتائج الأولى وجد الباحثون أن النماذج اللغوية التي اختبروها أدت بشكل ممتاز في جميع اختبارات الذكاء العاطفي، حيث حققت دقة متوسطة بلغت 81%، وهي أعلى من الدقة المتوسطة التي حققها المستجيبون البشريون (56%). تشير هذه النتائج إلى أن النماذج اللغوية الموجودة حاليًا تتفوق بالفعل في فهم المشاعر التي قد يختبرها الناس في مختلف السياقات، على الأقل في الحالات المنظمة مثل تلك المحددة في اختبارات الذكاء العاطفي. التجربة الثانية: إنشاء اختبارات جديدة في الجزء الثاني من تجربتهم، طلبوا من ChatGPT-4، أحد أحدث إصدارات ChatGPT المتاحة للجمهور، إنشاء نسخ جديدة تمامًا من الاختبارات المستخدمة في تجاربهم. كان يجب أن تتضمن هذه الاختبارات سيناريوهات عاطفية مختلفة، أسئلة، وخيارات إجابات مع تحديد الإجابات الصحيحة. تم تقديم الاختبارات الأصلية والجديدة التي تم إنشاؤها بواسطة AI لأكثر من 460 مشاركًا بشريًا لمقارنة الصعوبة، الوضوح، الواقعية، وكيفية ارتباطها باختبارات الذكاء العاطفي الأخرى وقياس الذكاء المعرفي التقليدي. النتائج الثانية أفادت كاتجا شليغل، المؤلفة الأولى للورقة البحثية، بأن ChatGPT-4 تمكن من إنشاء عناصر جديدة لاختبارات الذكاء العاطفي تم تصنيفها من قبل المشاركين البشريين بمستوى مماثل من الوضوح والواقعية كما هو الحال مع العناصر الأصلية، وظهرت جودتها النفسومترية مقاربة. ترى شليغل أن القدرة على حل وإنشاء هذه الاختبارات تعكس مستوى عاليًا من الفهم المفاهيمي للمشاعر. الآثار والتطبيقات يمكن أن تشجع نتائج هذه الدراسة علماء النفس على استخدام النماذج اللغوية الكبيرة لتطوير اختبارات الذكاء العاطفي ومواد التدريب، التي يتم إنشاؤها حاليًا يدويًا ويمكن أن تستغرق وقتًا طويلًا. علاوة على ذلك، يمكن أن تلهم استخدام LLMs لإنشاء سيناريوهات تمثيلية مخصصة وغيرها من المحتويات لتدريب العاملين في مجال العمل الاجتماعي. تشير النتائج أيضًا إلى أهميتها في تطوير وكلاء اجتماعيين مثل الروبوتات الصحية، المدربين التعليميين، وأفاتارات خدمة العملاء، والتي غالباً ما تعمل في سياقات عاطفية حساسة حيث يكون فهم المشاعر البشرية ضروريًا. تؤكد شليغل أن نتائجهم تشير إلى أن LLMs، على الأقل، يمكنها تقليد مهارات التفكير العاطفي اللازمة لهذه التفاعلات. الخطوات المستقبلية تخطط شليغل وزملاؤها لإجراء دراسات أخرى لتقييم مدى أداء LLMs في محادثات عاطفية أقل هيكلة في الحياة الحقيقية، خارج النموذج المتحكم لهيئة الاختبار. كما يرغبون في استكشاف مدى حساسية تفكيرها العاطفي ثقافيًا، حيث أن النماذج الحالية يتم تدريبها بشكل أساسي على بيانات مركزية غربية. تقييم الخبر من قبل متخصصين يرى العديد من الخبراء في مجال الذكاء الاصطناعي والتكنولوجيا أن هذه النتائج تعزز الفكرة القائلة بأن الذكاء الاصطناعي يمكن أن يتطور ليكون قادرًا على فهم وتقليد المشاعر البشرية في سياقات معقدة. ومع ذلك، يؤكدون على أن هناك حاجة لمزيد من البحوث لفهم حدود هذا الفهم العاطفي وكيفية تطبيقه بشكل فعال في البيئات الحقيقية. نبذة تعريفية عن شركة Anthropic شركة Anthropic هي شركة رائدة في مجال الذكاء الاصطناعي، مقرها في سان فرانسيسكو، وتعمل على تطوير نماذج لغوية كبرى مثل Claude. تهدف الشركة إلى خلق تكنولوجيا آمنة ومفيدة يمكنها مساعدة البشر في مجموعة متنوعة من المهام، بدءًا من الكتابة والبحث وحتى التفاعل في بيئات اجتماعية معقدة.
