HyperAIHyperAI
منذ 17 أيام

SpeechPrompt v2: ضبط الإشارة للوظائف الفئوية للصوت

Kai-Wei Chang, Yu-Kai Wang, Hua Shen, Iu-thing Kang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee
SpeechPrompt v2: ضبط الإشارة للوظائف الفئوية للصوت
الملخص

تُعدّ تقنية التحكم في النص المُقدّم (Prompt Tuning) تقنيةً تُعدّل مجموعة صغيرة من المعاملات لتوجيه نموذج لغوي مُدرّب مسبقًا (LM) ليعمل مباشرةً على إنتاج النتائج الخاصة بالمهام اللاحقة. في الآونة الأخيرة، أظهرت تقنية التحكم في النص المُقدّم كفاءتها في تخزين الحساب وكمية العمليات الحسابية في مجالات معالجة اللغة الطبيعية (NLP) ومعالجة الصوت. وقد كشفت هذه المزايا عن التحكم في النص المُقدّم كأحد البدائل الواعدة لتقديم النماذج اللغوية المُدرّبة مسبقًا لعدد كبير من المهام ضمن إطار موحد. وفي مجال معالجة الصوت، أظهرت "SpeechPrompt" كفاءة عالية في عدد المعاملات وأداءً تنافسيًا في عدد قليل من مهام تصنيف الصوت. ومع ذلك، لا تزال الإجابة على السؤال حول قدرة "SpeechPrompt" على دعم عدد كبير من المهام مفتوحة. في هذا العمل، نقترح "SpeechPrompt v2"، وهي إطار للتحكم في النص المُقدّم قادر على أداء مجموعة واسعة من مهام تصنيف الصوت، تشمل لغات متعددة ومهام مرتبطة بالصوت والتعبير الصوتي (Prosody). وأظهرت نتائج التجربة أن "SpeechPrompt v2" تحقق أداءً مماثلًا للطرق السابقة باستخدام أقل من 0.15 مليون معامل قابلة للتدريب ضمن إطار موحد.