الملخص

نُقدِّم نموذج Spirit LM، وهو نموذج لغوي أساسي متعدد الوسائط يُمكّن من دمج النص والصوت بشكل حر. يعتمد نموذجنا على نموذج لغوي نصي مُدرّب مسبقًا بحجم 7B، ونُوسِّع نطاقه ليشمل الوسائط الصوتية من خلال تدريبه بشكل مستمر على وحدات النص والصوت. تُدمج تسلسلات النص والصوت معًا في تدفق وحيد من الرموز (tokens)، وتُدرَّب باستخدام طريقة تبادلية على مستوى الكلمة، باستخدام مجموعة بيانات صغيرة مُجمَّعة تلقائيًا تتضمن نصوصًا ونصوصًا صوتية متزامنة. يأتي نموذج Spirit LM بنسخة أساسية ونسخة تعبيرية: النسخة الأساسية تستخدم وحدات صوتية صوتية (HuBERT)، بينما النسخة التعبيرية تُمكّن من نمذجة التعبير من خلال إضافة وحدات النبرة (pitch) ووحدات الأسلوب إلى وحدات الصوتية. في كلا النسختين، يتم ترميز النص باستخدام رموز BPE الفرعية. يُظهر النموذج الناتج قدرات معنوية مشابهة لنموذج النصوص، وقابلية تعبيرية مشابهة لنموذج الصوت. علاوةً على ذلك، نُظهر أن Spirit LM قادر على تعلّم مهام جديدة بأسلوب قليل من الأمثلة (few-shot) عبر الوسائط المختلفة (مثل: التعرف على الكلام ASR، تحويل النص إلى كلام TTS، تصنيف الصوت). ونُزوِّد بملفات الوزن (model weights) وشفرة الاستدلال (inference code).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

نموذج لغة مُتداخلٌ بين الكلام والكتابة: Spirit LM

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نموذج لغة مُتداخلٌ بين الكلام والكتابة: Spirit LM

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نموذج لغة مُتداخلٌ بين الكلام والكتابة: Spirit LM

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov