HyperAIHyperAI
منذ 9 أيام

نموذج لغة مُتداخلٌ بين الكلام والكتابة: Spirit LM

Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Christophe Ropers, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Mary Williamson, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
نموذج لغة مُتداخلٌ بين الكلام والكتابة: Spirit LM
الملخص

نُقدِّم نموذج Spirit LM، وهو نموذج لغوي أساسي متعدد الوسائط يُمكّن من دمج النص والصوت بشكل حر. يعتمد نموذجنا على نموذج لغوي نصي مُدرّب مسبقًا بحجم 7B، ونُوسِّع نطاقه ليشمل الوسائط الصوتية من خلال تدريبه بشكل مستمر على وحدات النص والصوت. تُدمج تسلسلات النص والصوت معًا في تدفق وحيد من الرموز (tokens)، وتُدرَّب باستخدام طريقة تبادلية على مستوى الكلمة، باستخدام مجموعة بيانات صغيرة مُجمَّعة تلقائيًا تتضمن نصوصًا ونصوصًا صوتية متزامنة. يأتي نموذج Spirit LM بنسخة أساسية ونسخة تعبيرية: النسخة الأساسية تستخدم وحدات صوتية صوتية (HuBERT)، بينما النسخة التعبيرية تُمكّن من نمذجة التعبير من خلال إضافة وحدات النبرة (pitch) ووحدات الأسلوب إلى وحدات الصوتية. في كلا النسختين، يتم ترميز النص باستخدام رموز BPE الفرعية. يُظهر النموذج الناتج قدرات معنوية مشابهة لنموذج النصوص، وقابلية تعبيرية مشابهة لنموذج الصوت. علاوةً على ذلك، نُظهر أن Spirit LM قادر على تعلّم مهام جديدة بأسلوب قليل من الأمثلة (few-shot) عبر الوسائط المختلفة (مثل: التعرف على الكلام ASR، تحويل النص إلى كلام TTS، تصنيف الصوت). ونُزوِّد بملفات الوزن (model weights) وشفرة الاستدلال (inference code).

نموذج لغة مُتداخلٌ بين الكلام والكتابة: Spirit LM | أحدث الأوراق البحثية | HyperAI