HyperAIHyperAI

Command Palette

Search for a command to run...

النماذج اللغوية الصوتية المُدرَّبة نصيًا

الملخص

تنمذجات لغة الكلام (SpeechLMs) تُعالج وتنشئ بيانات صوتية فقط، دون أي إشراف نصي. في هذه الدراسة، نقترح طريقة تُسمى TWIST، تُستخدم لتدريب نماذج لغة الكلام باستخدام بدء مُسخّن (warm-start) من نموذج لغة نصي مُدرّب مسبقًا. نُظهر من خلال التقييمات التلقائية والبشرية أن طريقة TWIST تتفوّق على نموذج SpeechLM الذي يبدأ من الصفر (cold-start) في جميع الجوانب. ونحلل تجريبيًا تأثير خيارات تصميم النموذج المختلفة، مثل مُحلّل الكلام (speech tokenizer)، والنموذج النصي المُدرّب مسبقًا، وحجم مجموعة البيانات. ونجد أن كلًا من مقياس تكبير النموذج (model scale) وحجم البيانات (dataset scale) يلعبان دورًا مهمًا في بناء نماذج SpeechLM ذات أداء أفضل. استنادًا إلى ملاحظاتنا، نقدّم أكبر نموذج SpeechLM (إلى حدّ علمنا) من حيث عدد المعلمات وحجم بيانات التدريب. بالإضافة إلى ذلك، نُقدّم نسختين مُتحدثتين من معيار التقييم النصي StoryCloze لتحسين تقييم النماذج ودفع عجلة الأبحاث المستقبلية في هذا المجال. نُعلن عن توفر عينات صوتية، والكود، والنموذج بشكل عام: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp