HyperAIHyperAI
منذ 17 أيام

دمج الشبكات المُدرَّبة مسبقًا مع واجهة رموز مستمرة لفهم لغة الكلام من النهاية إلى النهاية

Seunghyun Seo, Donghyun Kwak, Bowon Lee
دمج الشبكات المُدرَّبة مسبقًا مع واجهة رموز مستمرة لفهم لغة الكلام من النهاية إلى النهاية
الملخص

تعتمد معظم شبكات التعرف على الكلام وفهمه (SLU) من الطرف إلى الطرف (E2E) على شبكات التعرف على الكلام المُدرّبة مسبقًا (ASR)، ولكنها ما زالت تعاني من قلة القدرة على فهم المعاني الواردة في العبارات، وهو أمر بالغ الأهمية لمهام SLU. ولحل هذه المشكلة، اقترح عدد من الدراسات الحديثة استخدام شبكات فهم اللغة المُدرّبة مسبقًا (NLU). ومع ذلك، فإن الاستفادة الكاملة من كلا الشبكتين المُدرّبتين مسبقًا ليست أمرًا سهلًا، وقد تم اقتراح العديد من الحلول، مثل التعلم من التبادل المعرفي (Knowledge Distillation)، والتمثيل المشترك عبر الوسائط (cross-modal shared embedding)، ودمج الشبكات باستخدام واجهة (Interface). نقترح في هذا العمل طريقة بسيطة وقوية لدمج شبكة SLU من الطرف إلى الطرف، باستخدام واجهة جديدة تُسمى "الواجهة المُستمرة للرموز" (Continuous Token Interface - CTI)، وهي تمثيل مركزي يربط بين شبكة ASR وشبكة NLU عند تدريب كلا الشبكتين باستخدام نفس المفردات. وبما أن الفرق الوحيد بينهما هو مستوى الضوضاء، فإننا نقوم بتمرير إخراج شبكة ASR مباشرة إلى شبكة NLU. وبهذا، يمكننا تدريب شبكتنا لـ SLU بطريقة منتظمة من الطرف إلى الطرف دون الحاجة إلى وحدات إضافية مثل Gumbel-Softmax. وقد قمنا بتجريب نموذجنا على مجموعة بيانات SLURP، وهي مجموعة بيانات صعبة لمهام SLU، وحققنا أفضل النتائج المُسجّلة حتى الآن في مهام تصنيف النية وملء الفراغات (slot filling). كما تأكدنا من أن شبكة NLU، التي تم تدريبها مسبقًا باستخدام نموذج لغة مُقنّع (Masked Language Model)، قادرة على الاستفادة من تمثيل نصي مُشوّش باستخدام CTI. علاوةً على ذلك، أظهرنا أن نموذجنا يمكن تدريبه باستخدام التعلم متعدد المهام من بيانات متنوعة، حتى بعد دمجه باستخدام CTI.