HyperAIHyperAI
منذ 9 أيام

نمذجة اللغة المنطوقة التوليدية المُراعية للنبرة دون استخدام النص

Eugene Kharitonov, Ann Lee, Adam Polyak, Yossi Adi, Jade Copet, Kushal Lakhotia, Tu-Anh Nguyen, Morgane Rivière, Abdelrahman Mohamed, Emmanuel Dupoux, Wei-Ning Hsu
نمذجة اللغة المنطوقة التوليدية المُراعية للنبرة دون استخدام النص
الملخص

أظهرت التدريب المسبق للكلام فعالية رئيسية في مهام التصنيف، بينما لم يتم استكشاف قدرتها على إنتاج كلام جديد، على غرار ما يمكن لـ GPT-2 فعله من إنتاج فقرات متماسكة، بشكل واسع. يُعد نموذج اللغة المتكلمة التوليدي (GSLM) \cite{Lakhotia2021} العمل السابق الوحيد الذي تناول الجوانب التوليدية للتدريب المسبق للكلام، حيث استبدل النص بوحدات مشابهة للحروف الصوتية تم اكتشافها، وبيّن قدرته على إنتاج جمل جديدة ذات معنى. ومع ذلك، وعلى الرغم من التخلص من الحاجة إلى النص، فإن الوحدات المستخدمة في GSLM تتجاهل معظم المعلومات الصوتية (البروزودية). ونتيجة لذلك، يفشل GSLM في الاستفادة من البروزودية لتحسين الفهم، ولا يُنتج كلامًا تعبيريًا. في هذا العمل، نقدّم نموذجًا توليدياً للغة المتكلمة يراعي البروزودية (pGSLM). يتكوّن هذا النموذج من نموذج لغوي متعدد التدفقات (MS-TLM) مبني على التحويل (Transformer) للصوت، ممثلًا كتدفقات وحدات مُكتشفة وتدفقات خصائص بروزودية، إلى جانب نموذج HiFi-GAN المُعدّل الذي يقوم بتحويل مخرجات MS-TLM إلى إشارات موجية. وقد صممنا مجموعة من المقاييس لتقييم نمذجة وتكوين البروزودية، واستخدمنا مقاييسًا مُعاد استخدامها من GSLM لتقييم نمذجة المحتوى. تُظهر النتائج التجريبية أن pGSLM قادر على الاستفادة من البروزودية لتحسين نمذجة البروزودية والمحتوى معًا، كما يُنتج كلامًا طبيعيًا وذو معنى ومتماسكًا عند إعطائه مُدخلًا متكلّمًا. يمكن الاستماع إلى عينات صوتية من النموذج من خلال الرابط: https://speechbot.github.io/pgslm. أما الشيفرة والنماذج، فهي متاحة عبر: https://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/pgslm.

نمذجة اللغة المنطوقة التوليدية المُراعية للنبرة دون استخدام النص | أحدث الأوراق البحثية | HyperAI