HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق للغة والحديث لفهم اللغة الشفهية من الطرف إلى الطرف

Yao Qian Ximo Bian Yu Shi Naoyuki Kanda Leo Shen Zhen Xiao Michael Zeng

الملخص

يمكن لفهم اللغة الشفهية (SLU) من الطرف إلى الطرف (E2E) استخلاص المعاني مباشرة من الإشارة الصوتية دون الحاجة إلى سلسلة من معالج التعرف على الكلام التلقائي (ASR) ووحدة فهم اللغة الطبيعية (NLU). ومع ذلك، قد لا تكون تسجيلات الجمل المزدوجة والمعاني المقابلة دائمًا متاحة أو كافية لتدريب نموذج E2E SLU في بيئة إنتاج حقيقية. في هذه الورقة، نقترح دمج مُشفّر ASR من الطرف إلى الطرف المُحسّن جيدًا (الصوت) مع مُشفّر نموذج لغوي مُدرّب مسبقًا (اللغة) في مُشفّر مُفكّك مُحَوَّل (Transformer Decoder). يُحسَّن النموذج المُوحَّد للغة والصوت المُدرَّب مسبقًا (SLP) باستمرار على بيانات مُوسَّمة محدودة من المجال المستهدف باستخدام هدف نموذج اللغة المُقنّع الشرطي (Conditional Masked Language Model - MLM)، مما يمكّنه من إنتاج تسلسل فعّال يضم قصدًا، ونوعًا للفجوات، وقيمة للفجوات، بالنسبة لصوت إدخال معطى أثناء الاستدلال. تُظهر النتائج التجريبية على مجموعتين عامتين من البيانات أن نهجنا لـ E2E SLU يتفوّق على الطريقة التقليدية المتسلسلة. كما يتفوّق على أحدث الطرق المُتطورة لـ E2E SLU، مع استخدام كميات أقل بكثير من البيانات المزدوجة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التدريب المسبق للغة والحديث لفهم اللغة الشفهية من الطرف إلى الطرف | مستندات | HyperAI