هل صديقتك غاضبة؟ الخوارزميات تفهمها بشكل أفضل من الرجال المستقيمين

هناك عادة طريقتان لاستخدام تقنية الذكاء الاصطناعي للحكم على مشاعر الشخص، الأولى من خلال تعبيرات الوجه والثانية من خلال الصوت. إن المجال الأول ناضج نسبيا بالفعل، في حين أن الأبحاث المتعلقة بالعاطفة في التعرف على الكلام تتطور بسرعة. في الآونة الأخيرة، اقترحت بعض فرق البحث العلمي أساليب جديدة لتحديد المشاعر في أصوات المستخدمين بشكل أكثر دقة.
هناك العديد من المقالات على Zhihu حول كيف تعرف أن حبيبتك غاضبةعندما طرحت أسئلة مثل هذه، أجاب بعض الناس: كلما قل عدد الكلمات، كلما كان الأمر أكبر؛ وقال آخرون: إذا كنت غاضبًا حقًا، فلن أتواصل معك لمدة شهر؛ إذا كنت أتظاهر بالغضب، فسوف أتصرف ببرود وأقول "أنا غاضب".

لذا، فإن عبارة "أنا لست غاضبة/لست غاضبة حقًا" التي تقولها صديقتي = "غاضبة جدًا"؛ "أنا غاضب" = "تصرف مثل طفل مدلل، أنا لست غاضبًا، فقط أعطني القبلات والعناق وارفعني". هذا النوع من المنطق العاطفي يدفع الرجال المستقيمين إلى الجنون.

كيف يمكنني معرفة إذا كانت صديقتي غاضبة أم لا؟يقال إن الذكاء الاصطناعي حقق إنجازات في تحديد المشاعر من خلال الاستماع إلى الموسيقى، وقد تكون النتائج أكثر دقة من نتائج صبي يخدش رأسه ويفكر لفترة طويلة.
المساعد الصوتي أليكسا: تنمية شخصية دافئة ومهتمة
قد يكون المساعد الصوتي أليكسا من أمازون أكثر ذكاءً من صديقك عندما يتعلق الأمر باستشعار العواطف.
هذا العام، بعد التحديث الأخير، تمكنت أليكسا منقم بتحليل درجة وحجم أوامر المستخدم، وتحديد المشاعر مثل السعادة والفرح والغضب والحزن والتهيج والخوف والاشمئزاز والملل وحتى التوتر، والاستجابة للأوامر المقابلة.

على سبيل المثال، إذا قامت فتاة بنفخ أنفها وسعلت أثناء إخبار أليكسا بأنها جائعة قليلاً، فسوف تقوم أليكسا بتحليل نبرة صوتها (ضعيفة، منخفضة) والضوضاء الخلفية (السعال، نفخ أنفها) وتخلص إلى أنها من المحتمل أن تكون مريضة، ثم ترسل معلومات الرعاية من الجهاز: هل ترغبين في تناول وعاء من حساء الدجاج أو تناول طعام جاهز؟ أو حتى يمكنك طلب زجاجة من شراب السعال عبر الإنترنت ويتم توصيلها إلى باب منزلك خلال ساعة واحدة؟
أليس هذا السلوك أكثر مراعاة من سلوك الصديق المستقيم؟
الذكاء الاصطناعي لتصنيف المشاعر ليس بالأمر الجديد، ولكن مؤخرًا، قامت أمازون كلام أليكسا وقد كسر الفريق الأساليب التقليدية منذ بعض الوقت ونشر نتائج بحثية جديدة.
يتم الإشراف على الطرق التقليدية، وتم تصنيف بيانات التدريب التي تم الحصول عليها وفقًا للحالة العاطفية للمتحدث. اتخذ العلماء في فريق Amazon Alexa Speech مؤخرًا نهجًا مختلفًا، ونشروا ورقة بحثية تقدم نهجهم في المؤتمر الدولي للصوتيات والكلام ومعالجة الإشارات (ICASSP).تحسين تصنيف المشاعر من خلال الاستدلال المتغير للمتغيرات الكامنة (http://t.cn/Ai0se57g)

بدلاً من تدريب النظام على مجموعة من بيانات المشاعر الموضحة بالكامل، فقد قدموامشفر ذاتي تنافسي (AAE). هذا فيديو يحتوي على 10 متحدثين مختلفين. 10,000 فردمجموعة بيانات عامة للتصريحات.
وأظهرت نتائج دراستهم أنه عند الحكم على أصوات الناسالفعالية(قيمة العاطفة) أوالقيمة العاطفية(القيمة العاطفية)، الشبكة العصبيةتم تحسين الدقة بنسبة 4%.بفضل جهود الفريق، أصبح من الممكن تحديد الحالة المزاجية للمستخدم أو حالته العاطفية بشكل موثوق من خلال صوت المستخدم.

وأوضح فيكتور روزجيتش، أحد المؤلفين المشاركين في الدراسة وكبير العلماء التطبيقيين في مجموعة Alexa Speech، أن المشفر التلقائي المعادي هو نموذج مكون من جزأين يحتوي على مشفر - مشفر وفك تشفير. يتعلم المشفر كيفية إنشاء تمثيل مضغوط (أو كامن) للكلام المدخل الذي يشفر جميع خصائص أمثلة التدريب؛ يقوم جهاز فك التشفير بإعادة بناء المدخلات من التمثيل المضغوط.

التمثيلات العاطفية للباحثين هيثلاث عقد شبكيةيتم استخدام عقد الشبكة الثلاث لثلاثة قياسات عاطفية على التوالي:الفعالية،التنشيط(التنشيط، سواء كان المتحدث متيقظًا أو منخرطًا أو سلبيًا)، وهيمنة(هل يشعر المتحدث بالسيطرة على الوضع المحيط به)
نقاط التدريبثلاث مراحلسلوك. المرحلة الأولى تقوم بتدريب المشفر وفك التشفير بشكل منفصل باستخدام بيانات غير مصنفة. المرحلة الثانية هي التدريب التنافسي، وهي تقنية يحاول فيها المميز التنافسي التمييز بين التمثيلات الحقيقية التي ينتجها المبرمج والتمثيلات الاصطناعية. يتم استخدام هذه المرحلة لضبط المشفر. في المرحلة الثالثة، يتم ضبط المبرمج لضمان استخدام تمثيل المشاعر الكامنة للتنبؤ بعلامات المشاعر لبيانات التدريب.
وفي التجارب "المهندسة يدويا" التي تنطوي على تمثيلات مميزة على مستوى الجملة لالتقاط معلومات حول إشارات الكلام، كان نظام الذكاء الاصطناعي الخاص بهم أكثر دقة بنسبة 3% في تقييم القيمة من الشبكة المدربة تقليديا.
وعلاوة على ذلك، فقد أظهروا أنه عندما تم تغذية الشبكة بسلسلة من الخصائص الصوتية التي تمثل إطارات مدتها 20 ميلي ثانية (أو مقاطع صوتية)، تحسن الأداء بواسطة 4%.
مختبر معهد ماساتشوستس للتكنولوجيا يبني شبكة عصبية يمكنها استشعار الغضب في 1.2 ثانية
أمازون ليست الشركة الوحيدة التي تعمل على تحسين الكشف عن المشاعر القائمة على الصوت.مختبر الوسائط Affectiva التابع لمعهد ماساتشوستس للتكنولوجيا في الآونة الأخيرة، تم عرض شبكة عصبية تُسمى SoundNet: يمكنها في غضون 1.2 ثانية(تجاوز الوقت الذي يستغرقه الإنسان ليشعر بالغضب) تصنيف الغضب والبيانات الصوتية، بغض النظر عن اللغة.

في ورقة بحثية جديدة، أجرى باحثون في Affectiva "نقل التعلم من التمثيلات الصوتية لاكتشاف الغضب في الكلام》(https://arxiv.org/pdf/1902.02120.pdf)تم وصف النظام في .ويعتمد على بيانات الصوت والوجه لإنشاء ملفات تعريف عاطفية.
لاختبار قابلية تعميم نموذج الذكاء الاصطناعي، قام الفريق بتقييم نموذج تم تدريبه على بيانات المشاعر الكلامية باللغة الصينية المندرينية (مجموعة المشاعر المندرينية، أو MASC) باستخدام نموذج تم تدريبه باللغة الإنجليزية. ونتيجة لذلكلا يقتصر الأمر على تعميمه بشكل جيد على بيانات الكلام باللغة الإنجليزية فحسب، بل إنه يعمل أيضًا بشكل جيد على البيانات الصينية، على الرغم من انخفاض الأداء قليلاً.

وقال الفريق: "إن التعرف على الغضب له مجموعة واسعة من التطبيقات، بما في ذلك واجهات المحادثة والروبوتات الاجتماعية، وأنظمة الاستجابة الصوتية التفاعلية (IVR)، وأبحاث السوق، وتقييم وكلاء العملاء وتدريبهم، والواقع الافتراضي والمعزز".
وسوف تعمل الأعمال المستقبلية على تطوير مجموعات بيانات عامة كبيرة أخرى وتدريب أنظمة الذكاء الاصطناعي على المهام ذات الصلة القائمة على الكلام، مثل التعرف على أنواع أخرى من المشاعر والحالات العاطفية.
تطبيق إسرائيلي يتعرف على المشاعر: معدل الدقة 80%
الشركات الناشئة الإسرائيلية ما وراء اللفظي تم تطوير تطبيق يسمى Moodies، والذي يمكنه جمع صوت المتحدث من خلال الميكروفون وتحديد الخصائص العاطفية للمتحدث بعد حوالي 20 ثانية من التحليل.

وعلى الرغم من أن خبراء تحليل الكلام يقرون بأن اللغة والعواطف مترابطة، فإن العديد من الخبراء يشككون في دقة مثل هذه القياسات في الوقت الحقيقي - فعينات الصوت التي يتم جمعها بواسطة هذه الأدوات محدودة للغاية، وقد يتطلب التحليل الفعلي جمع العينات لعدة سنوات.
وقال أندرو بارون، الأستاذ المساعد في علم النفس بجامعة كولومبيا: "في ظل الحالة الحالية لعلم الأعصاب الإدراكي، فإننا ببساطة لا نملك التكنولوجيا اللازمة لفهم أفكار الشخص أو مشاعره حقًا".
ومع ذلك، قال دان إمودي، نائب رئيس التسويق في بيوند فيربال، إن شركة موديز أجرت أبحاثًا لأكثر من ثلاث سنوات واستنادًا إلى تعليقات المستخدمين،وتبلغ دقة التحليل المطبق حوالي 80%.
وقالت شركة بيوند فيربال إن تطبيق Moodies يمكن استخدامه لتشخيص العواطف الذاتية، ومركز خدمة العملاء للتعامل مع علاقات العملاء وحتى للكشف عما إذا كان المتقدمون للوظائف يكذبون. بالطبع، يمكنك أيضًا إحضاره إلى مشهد المواعدة لمعرفة ما إذا كان الشخص الآخر مهتمًا بك حقًا.
لا يزال التعرف على المشاعر الصوتية يواجه تحديات
على الرغم من أن العديد من شركات التكنولوجيا كانت تجري أبحاثًا في هذا المجال لسنوات عديدة وحققت نتائج جيدة. ومع ذلك، وكما ذكر أندرو بارون أعلاه، تواجه هذه التكنولوجيا العديد من التحديات.
تمامًا كما أن قول صديقتك بهدوء "أنا لست غاضبة" لا يعني أنها ليست غاضبة حقًا، فإن النطق يمكن أن يحتوي على مجموعة متنوعة من المشاعر.من الصعب أيضًا تحديد الحدود بين المشاعر المختلفةما هي العاطفة السائدة حاليًا؟
ليست كل النغمات واضحة ومكثفة؛ إن التعبير عن المشاعر هو مسألة شخصية للغاية وتختلف بشكل كبير اعتمادًا على الفرد والبيئة وحتى الثقافة.
بالإضافة إلى ذلك، قد يستمر المزاج لفترة طويلة، ولكن ستكون هناك أيضًا تغييرات سريعة في المزاج خلال هذه الفترة.هل يكتشف نظام التعرف على المشاعر المشاعر طويلة الأمد أم قصيرة الأمد؟على سبيل المثال، شخص يعاني من البطالة، لكنه يشعر بالسعادة لفترة وجيزة بسبب اهتمام أصدقائه. لكن في الحقيقة، فهو لا يزال حزينًا. كيف ينبغي للذكاء الاصطناعي أن يحدد حالته؟
هناك أمر آخر مثير للقلق وهو أنه بمجرد أن تتمكن هذه المنتجات من فهم مشاعر الناس، فهل ستطرح المزيد من الأسئلة الخاصة وتحصل على المزيد من المعلومات حول المستخدمين بسبب اعتمادهم عليها، وبالتاليتحويل "الخدمة" إلى "معاملة"؟
أتمنى أن يكون لديك داباي وشخص يفهمك حقًا.
يرغب العديد من الأشخاص في الحصول على Baymax دافئ ورعاية. هل سيصبح هذا الروبوت ذو الذكاء العاطفي العالي والذي لا يوجد إلا في أفلام الخيال العلمي حقيقة في المستقبل؟

في الوقت الحاضر، لا تزال العديد من برامج المحادثة الآلية تفتقر إلى الذكاء العاطفي ولا تستطيع إدراك المشاعر الصغيرة للمستخدمين، مما يؤدي في كثير من الأحيان إلى قتل المحادثة. لذلك، فإن الأشخاص الذين يستطيعون فهمك حقًا هم نفس الأشخاص الذين يبقون بجانبك ويستمعون إليك.
-- زيادة--