SpeechPrompt v2: ضبط الإشارة للوظائف الفئوية للصوت

تُعدّ تقنية التحكم في النص المُقدّم (Prompt Tuning) تقنيةً تُعدّل مجموعة صغيرة من المعاملات لتوجيه نموذج لغوي مُدرّب مسبقًا (LM) ليعمل مباشرةً على إنتاج النتائج الخاصة بالمهام اللاحقة. في الآونة الأخيرة، أظهرت تقنية التحكم في النص المُقدّم كفاءتها في تخزين الحساب وكمية العمليات الحسابية في مجالات معالجة اللغة الطبيعية (NLP) ومعالجة الصوت. وقد كشفت هذه المزايا عن التحكم في النص المُقدّم كأحد البدائل الواعدة لتقديم النماذج اللغوية المُدرّبة مسبقًا لعدد كبير من المهام ضمن إطار موحد. وفي مجال معالجة الصوت، أظهرت "SpeechPrompt" كفاءة عالية في عدد المعاملات وأداءً تنافسيًا في عدد قليل من مهام تصنيف الصوت. ومع ذلك، لا تزال الإجابة على السؤال حول قدرة "SpeechPrompt" على دعم عدد كبير من المهام مفتوحة. في هذا العمل، نقترح "SpeechPrompt v2"، وهي إطار للتحكم في النص المُقدّم قادر على أداء مجموعة واسعة من مهام تصنيف الصوت، تشمل لغات متعددة ومهام مرتبطة بالصوت والتعبير الصوتي (Prosody). وأظهرت نتائج التجربة أن "SpeechPrompt v2" تحقق أداءً مماثلًا للطرق السابقة باستخدام أقل من 0.15 مليون معامل قابلة للتدريب ضمن إطار موحد.