التقنية الثنائية المعرفية المستندة إلى النص لفهم اللغة الشفهية من الطرف إلى الطرف

تُتيح النهج المتكاملة من الطرف إلى الطرف طريقة جديدة لتحقيق أنظمة أكثر دقة وكفاءة لفهم اللغة الشفهية (SLU)، وذلك بتقليل العيوب المتأصلة في الأنظمة التقليدية القائمة على خطوات متسلسلة. في الدراسات السابقة، تم استغلال المعلومات النصية في نموذج فهم اللغة الشفهية من خلال التدريب المسبق باستخدام تقنيات التعرف التلقائي على الكلام أو من خلال التحسين الدقيق باستخدام تبادل المعرفة. وللتمكن من استغلال المعلومات النصية بشكل أكثر فعالية، تقدم هذه الدراسة طريقة تبادل معرفة نصية مزدوجة المرحلة، تُطابق تمثيلات المستوى الجملة (utterance-level) والنتائج المتوقعة (logits) للكلا الوسائط (الصوتية والنصية) أثناء التدريب المسبق والتحسين الدقيق، بشكل متسلسل. نستخدم نموذج vq-wav2vec BERT كمشفر للصوت نظرًا لقدرته على التقاط ميزات عامة وغنية. علاوةً على ذلك، نُحسّن الأداء، خصوصًا في السياقات ذات الموارد المحدودة، باستخدام تقنيات تضخيم البيانات من خلال تمرير أجزاء عشوائية من الرموز الصوتية المنفصلة وتمثيلات المخزون المُحتَفَظ بها المُحتَوَية على السياق. في النتيجة، نُحقّق أحدث المستويات المتطورة في مجموعة بيانات Fluent Speech Commands، حيث بلغت دقة الاختبار 99.7% في إعداد البيانات الكاملة، و99.5% في إعداد مجموعة فرعية بنسبة 10%. وخلال دراسات التحليل التجريبي (ablation studies)، تأكدنا تجريبيًا من أن جميع الأساليب المستخدمة تُعدّ حاسمةً لأداء النموذج النهائي، مما يُقدّم أفضل الممارسات لفهم اللغة الشفهية. يُمكن الاطلاع على الشفرة المصدرية عبر الرابط: https://github.com/clovaai/textual-kd-slu.