HyperAIHyperAI
منذ 9 أيام

النماذج اللغوية الصوتية المُدرَّبة نصيًا

Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi
النماذج اللغوية الصوتية المُدرَّبة نصيًا
الملخص

تنمذجات لغة الكلام (SpeechLMs) تُعالج وتنشئ بيانات صوتية فقط، دون أي إشراف نصي. في هذه الدراسة، نقترح طريقة تُسمى TWIST، تُستخدم لتدريب نماذج لغة الكلام باستخدام بدء مُسخّن (warm-start) من نموذج لغة نصي مُدرّب مسبقًا. نُظهر من خلال التقييمات التلقائية والبشرية أن طريقة TWIST تتفوّق على نموذج SpeechLM الذي يبدأ من الصفر (cold-start) في جميع الجوانب. ونحلل تجريبيًا تأثير خيارات تصميم النموذج المختلفة، مثل مُحلّل الكلام (speech tokenizer)، والنموذج النصي المُدرّب مسبقًا، وحجم مجموعة البيانات. ونجد أن كلًا من مقياس تكبير النموذج (model scale) وحجم البيانات (dataset scale) يلعبان دورًا مهمًا في بناء نماذج SpeechLM ذات أداء أفضل. استنادًا إلى ملاحظاتنا، نقدّم أكبر نموذج SpeechLM (إلى حدّ علمنا) من حيث عدد المعلمات وحجم بيانات التدريب. بالإضافة إلى ذلك، نُقدّم نسختين مُتحدثتين من معيار التقييم النصي StoryCloze لتحسين تقييم النماذج ودفع عجلة الأبحاث المستقبلية في هذا المجال. نُعلن عن توفر عينات صوتية، والكود، والنموذج بشكل عام: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.

النماذج اللغوية الصوتية المُدرَّبة نصيًا | أحدث الأوراق البحثية | HyperAI