HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج لغة مُتداخلٌ بين الكلام والكتابة: Spirit LM

الملخص

نُقدِّم نموذج Spirit LM، وهو نموذج لغوي أساسي متعدد الوسائط يُمكّن من دمج النص والصوت بشكل حر. يعتمد نموذجنا على نموذج لغوي نصي مُدرّب مسبقًا بحجم 7B، ونُوسِّع نطاقه ليشمل الوسائط الصوتية من خلال تدريبه بشكل مستمر على وحدات النص والصوت. تُدمج تسلسلات النص والصوت معًا في تدفق وحيد من الرموز (tokens)، وتُدرَّب باستخدام طريقة تبادلية على مستوى الكلمة، باستخدام مجموعة بيانات صغيرة مُجمَّعة تلقائيًا تتضمن نصوصًا ونصوصًا صوتية متزامنة. يأتي نموذج Spirit LM بنسخة أساسية ونسخة تعبيرية: النسخة الأساسية تستخدم وحدات صوتية صوتية (HuBERT)، بينما النسخة التعبيرية تُمكّن من نمذجة التعبير من خلال إضافة وحدات النبرة (pitch) ووحدات الأسلوب إلى وحدات الصوتية. في كلا النسختين، يتم ترميز النص باستخدام رموز BPE الفرعية. يُظهر النموذج الناتج قدرات معنوية مشابهة لنموذج النصوص، وقابلية تعبيرية مشابهة لنموذج الصوت. علاوةً على ذلك، نُظهر أن Spirit LM قادر على تعلّم مهام جديدة بأسلوب قليل من الأمثلة (few-shot) عبر الوسائط المختلفة (مثل: التعرف على الكلام ASR، تحويل النص إلى كلام TTS، تصنيف الصوت). ونُزوِّد بملفات الوزن (model weights) وشفرة الاستدلال (inference code).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp