Uni-MIS: فهم اللغة الشفهية متعدد النوايا الموحّد من خلال التفاعل متعدد الأنظار بين النوايا والمقاسات
حتى الآن، أصبح فهم اللغة الصوتية متعددة النوايا (SLU) محورًا بحثيًا رئيسيًا في مجال معالجة اللغة الطبيعية (NLP) بفضل قدرته على التعرف على واستخراج عدة نوايا تُعبّر عنها وتسمية العلامات التسلسلية المقابلة ضمن جملة واحدة. ركّزت الدراسات السابقة بشكل رئيسي على التفاعل على مستوى الرموز (token-level) بين النوايا والمقاطع (slots) لنموذج اكتشاف النوايا المشترك وتعبئة المقاطع، مما أدى إلى عدم الاستفادة الكاملة من المعلومات التوجيهية غير المتجانسة للنوايا أثناء التدريب المشترك. في هذا العمل، نقدّم معمارية جديدة من خلال نمذجة فهم اللغة الصوتية متعددة النوايا كتفاعل متعدد الأوجه بين النوايا والمقاطع. تحل هذه المعمارية العقبة الأساسية في النموذج الموحّد لفهم اللغة الصوتية متعدد النوايا من خلال نمذجة فعّالة للعلاقات بين النوايا والمقاطع باستخدام تفاعل على مستويات الجملة (utterance)، والقطعة (chunk)، والرمز (token). كما نطوّر إطارًا عصبيًا جديدًا يُسمى Uni-MIS، حيث يتم نمذجة فهم اللغة الصوتية متعدد النوايا الموحّد كدمج لتفاعل ثلاثي الأوجه بين النوايا والمقاطع، بهدف التقاط معلومات التفاعل بشكل أفضل بعد الترميز الخاص. تُستخدم مُفكّك كشف النوايا على مستوى القطعة لالتقاط النوايا المتعددة بشكل كافٍ، بينما تُستخدم شبكة رسمية متكيفة للنوايا والمقاطع لالتقاط المعلومات الدقيقة للنوايا لتوجيه عملية تعبئة المقاطع النهائية. أجرينا تجارب واسعة على مجموعتي بيانات معياريتين شائعتين لفهم اللغة الصوتية متعدد النوايا، حيث تفوق نموذجنا على جميع النماذج القوية الحالية، مُسجّلًا أداءً متقدماً في مستوى الحد الأقصى الحالي (state-of-the-art) لفهم اللغة الصوتية متعدد النوايا الموحّد. بالإضافة إلى ذلك، يُظهر اختبار معيار ChatGPT الذي طوّرناه وجود قيمة بحثية كبيرة ومحتملة في مجال فهم اللغة الصوتية متعدد النوايا.