HyperAI
Back to Headlines

"LAION و Intel تطوران أدوات ذكاء اصطناعي تحلل وتقيّم شدة 40 حالة عاطفية بشكل فعال"

منذ 4 أيام

تتعاون مؤسسة LAION مع شركة إنتل لتقديم أدوات مبتكرة تساعد أنظمة الذكاء الاصطناعي على فهم العواطف البشرية بشكل أفضل. تحت مسمى "Empathic Insight"، تم تصميم هذه الأدوات لتحليل الصور الفوتوغرافية للوجوه أو الملفات الصوتية وتقييم شدة 40 فئة مختلفة من العواطف. بالنسبة للصور، يتم تقييم العواطف على مقياس يتراوح بين 0 و7، أما بالنسبة للأصوات، فيتم تصنيفها كغائبة، أو ملحوظة قليلاً، أو ملحوظة بشدة. يعتمد هذا المشروع على نموذج "EmoNet"، الذي يستند إلى تصنيف يضم 40 فئة من العواطف تم تطويرها من خلال "كتاب العواطف"، وهو مرجع رئيسي في علم النفس. قدّم الباحثون قائمة موسعة تتضمن حالات معرفية مثل التركيز والارتباك، والحالات الجسدية مثل الألم والإرهاق، والعواطف الاجتماعية مثل العار والفخر. حسب ما ذكروه، ليست العواطف قابلة للقراءة بشكل عام؛ بل يقوم الدماغ ببنائها من مجموعة متنوعة من الإشارات. لذلك، تعمل نماذجهم على تقديرات احتمالية بدلاً من التصنيفات الثابتة. لتدريب هذه النماذج، استخدم الفريق أكثر من 203,000 صورة للوجه وأكثر من 4,692 عينة صوتية. جاءت بيانات النطق من مجموعة "Laion's Got Talent"، التي تضم أكثر من 5,000 ساعة من التسجيلات الصوتية المحاكاة باللغات الإنجليزية والألمانية والإسبانية والفرنسية، والتي تم إنتاجها باستخدام نموذج GPT-4o الصوتي التابع لشركة OpenAI.为了避免隐私问题并提高人口统计学多样性,LAION完全依赖合成数据。面部图像使用如Midjourney和Flux这样的文本到图像模型创建,并通过程序按年龄、性别和种族进行变化。所有音频样本均由接受过心理学培训的专家进行审查,只有三个独立评审员达成一致的评分才被纳入数据集。 وفقًا لـLAION، فإن نماذج "Empathic Insight" تتفوق على المنافسين الحاليين في المقاييس. على مقاييس "EmoNet Face HQ"، أظهر نموذج "Empathic Insight Face" ارتباطًا أعلى بتقييمات الخبراء البشريين مقارنة بنماذج مثل "Gemini 2.5 Pro" أو واجهات برمجة التطبيقات المغلقة المصدر مثل "Hume AI". المعيار الرئيسي كان مدى تطابق تقييمات الذكاء الاصطناعي مع تقييمات المتخصصين في علم النفس. بلغت نسبة تطابق تقييمات EmoNet مع تقييمات الخبراء البشريين حوالي 40% من الوقت، مقارنة بنسبة 25-30% لنماذج التعلم العميق القياسية وبضعة نقاط فقط للأسس العشوائية. أيضًا، أفاد الباحثون بنتائج قوية في تحديد العواطف من الكلام. أداء نموذج "Empathic Insight Voice" كان أفضل من النماذج الصوتية الحالية على مقاييس "EmoNet Voice"، حيث تمكّن من تحديد جميع فئات العواطف الـ40 بشكل صحيح. اختبر الفريق أحجامًا مختلفة من النماذج وطرق معالجة الصوت لتحسين النتائج. بجانب تحديد العواطف، طوّرت LAION نموذج "BUD-E Whisper"، وهو نسخة محدثة من نموذج Whisper التابع لـOpenAI. بينما يعمل Whisper على تحويل الكلام إلى نص، يضيف "BUD-E Whisper" وصفًا منظمًا للنبرة العاطفية، ويكتشف الانفجارات الصوتية مثل الضحك والتنفس العميق، ويقدّر خصائص المتحدث مثل العمر والجنس. جميع نماذج EmoNet متاحة بموجب تراخيص Creative Commons (للنماذج) وApache 2.0 (للكود). يمكن تحميل البيانات والنماذج من موقع Hugging Face. يأتي كل من نموذجي "Empathic Insight" بنسختين "صغيرة" و"كبيرة" على موقع Hugging Face، مما يجعلها متاحة لمختلف الاستخدامات والمتطلبات المادية. منذ عام 2021، قامت شركة إنتل بدعم المشروع كجزء من استراتيجيتها للذكاء الاصطناعي المفتوح المصدر، مع التركيز على تحسين أداء النماذج على أجهزة إنتل.

Related Links