النماذج اللغوية الصوتية المُدرَّبة نصيًا

تنمذجات لغة الكلام (SpeechLMs) تُعالج وتنشئ بيانات صوتية فقط، دون أي إشراف نصي. في هذه الدراسة، نقترح طريقة تُسمى TWIST، تُستخدم لتدريب نماذج لغة الكلام باستخدام بدء مُسخّن (warm-start) من نموذج لغة نصي مُدرّب مسبقًا. نُظهر من خلال التقييمات التلقائية والبشرية أن طريقة TWIST تتفوّق على نموذج SpeechLM الذي يبدأ من الصفر (cold-start) في جميع الجوانب. ونحلل تجريبيًا تأثير خيارات تصميم النموذج المختلفة، مثل مُحلّل الكلام (speech tokenizer)، والنموذج النصي المُدرّب مسبقًا، وحجم مجموعة البيانات. ونجد أن كلًا من مقياس تكبير النموذج (model scale) وحجم البيانات (dataset scale) يلعبان دورًا مهمًا في بناء نماذج SpeechLM ذات أداء أفضل. استنادًا إلى ملاحظاتنا، نقدّم أكبر نموذج SpeechLM (إلى حدّ علمنا) من حيث عدد المعلمات وحجم بيانات التدريب. بالإضافة إلى ذلك، نُقدّم نسختين مُتحدثتين من معيار التقييم النصي StoryCloze لتحسين تقييم النماذج ودفع عجلة الأبحاث المستقبلية في هذا المجال. نُعلن عن توفر عينات صوتية، والكود، والنموذج بشكل عام: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.