HyperAIHyperAI
منذ 18 أيام

التدريب المسبق للغة والحديث لفهم اللغة الشفهية من الطرف إلى الطرف

Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao, Michael Zeng
التدريب المسبق للغة والحديث لفهم اللغة الشفهية من الطرف إلى الطرف
الملخص

يمكن لفهم اللغة الشفهية (SLU) من الطرف إلى الطرف (E2E) استخلاص المعاني مباشرة من الإشارة الصوتية دون الحاجة إلى سلسلة من معالج التعرف على الكلام التلقائي (ASR) ووحدة فهم اللغة الطبيعية (NLU). ومع ذلك، قد لا تكون تسجيلات الجمل المزدوجة والمعاني المقابلة دائمًا متاحة أو كافية لتدريب نموذج E2E SLU في بيئة إنتاج حقيقية. في هذه الورقة، نقترح دمج مُشفّر ASR من الطرف إلى الطرف المُحسّن جيدًا (الصوت) مع مُشفّر نموذج لغوي مُدرّب مسبقًا (اللغة) في مُشفّر مُفكّك مُحَوَّل (Transformer Decoder). يُحسَّن النموذج المُوحَّد للغة والصوت المُدرَّب مسبقًا (SLP) باستمرار على بيانات مُوسَّمة محدودة من المجال المستهدف باستخدام هدف نموذج اللغة المُقنّع الشرطي (Conditional Masked Language Model - MLM)، مما يمكّنه من إنتاج تسلسل فعّال يضم قصدًا، ونوعًا للفجوات، وقيمة للفجوات، بالنسبة لصوت إدخال معطى أثناء الاستدلال. تُظهر النتائج التجريبية على مجموعتين عامتين من البيانات أن نهجنا لـ E2E SLU يتفوّق على الطريقة التقليدية المتسلسلة. كما يتفوّق على أحدث الطرق المُتطورة لـ E2E SLU، مع استخدام كميات أقل بكثير من البيانات المزدوجة.