Command Palette
Search for a command to run...
StableToken: مُحَوِّل صوتيّ للسياق مُقاوم للضوضاء لنموذج لغوي صوتي مُرن
Yuhan Song Linhao Zhang Chuhan Wu Aiwei Liu Wei Jia Houfeng Wang Xiao Zhou

الملخص
المحولات الصوتية الشائعة التي تعتمد على المعنى، المصممة لاستخلاص المحتوى اللغوي، تُظهر مفاجأةً من حيث الضعف. وجدنا أنها ليست مقاومة للتغيرات الصوتية التي لا تؤثر على المعنى؛ حتى عند نسب إشارة إلى ضوضاء عالية (SNR) حيث تكون الكلام واضحًا تمامًا، يمكن أن تتغير تسلسلات الرموز الناتجة بشكل كبير، مما يزيد من العبء على النماذج اللغوية الكبيرة (LLMs) في المهام التالية. وتنبع هذه عدم الاستقرار من عيبين: هيكلية كمية ذات مسار واحد هشة، وسигنال تدريب بعيد عن الاستقرار الوسيط للرموز. ولحل هذه المشكلة، نقدم "StableToken"، وهو محول يحقق الاستقرار من خلال آلية تعتمد على التوافق. ويقوم هيكله المتعدد الفروع بمعالجة الصوت بشكل متوازٍ، ثم تُدمج هذه التمثيلات عبر آلية تصويت قوية على مستوى البت لتكوين تسلسل رموز واحد ومستقر. ويُعدّ StableToken الأفضل على مستوى الحالة الحالية فيما يتعلق باستقرار الرموز، حيث يقلل بشكل كبير من مسافة التعديل وحدة (UED) تحت ظروف ضوضاء متنوعة. ويترجم هذا الاستقرار الأساسي مباشرة إلى فوائد في المهام التالية، مما يحسن بشكل ملحوظ مقاومة نماذج اللغة الصوتية (SpeechLLMs) في مجموعة متنوعة من المهام.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.