استخدام نماذج اللغة الكبيرة (LLM) والفصل المستند إلى النص للكشف عن الأحداث الصوتية المقاومة للضوضاء

اكتشاف الأحداث الصوتية (SED) يشكل تحديًا في البيئات الضوضائية حيث تغطي الأصوات المتداخلة الأحداث المستهدفة. يهدف فصل مصدر الصوت بالاستعلام اللغوي (LASS) إلى عزل الأحداث الصوتية المستهدفة من مقطع ضوضائي. ومع ذلك، يمكن أن تفشل هذه الطريقة عندما يكون الصوت المستهدف غير معروف تمامًا، خاصة في مجموعات الاختبار الضوضائية، مما يؤدي إلى انخفاض الأداء. لمعالجة هذه المشكلة، نستفيد من قدرات النماذج اللغوية الكبيرة (LLMs) لتحليل وتقديم ملخص للبيانات الصوتية. من خلال استخدام النماذج اللغوية الكبيرة لتحديد واختيار أنواع ضوضاء معينة، نقوم بتنفيذ طريقة زيادة الضوضاء لضبط الدقة المقاوم للضوضاء. يتم تطبيق النموذج المعدّل لتنبؤه بالأحداث في المقاطع كاستعلامات نصية للنموذج LASS. تظهر دراساتنا أن الطريقة المقترحة تحسن أداء SED في البيئات الضوضائية. يمثل هذا العمل تطبيقًا مبكرًا للنماذج اللغوية الكبيرة في SED المقاوم للضوضاء ويقترح اتجاهًا واعدًا لمعالجة الأحداث المتداخلة في SED. يمكن الوصول إلى الرموز والنماذج المدربة مسبقًا على الرابط التالي: https://github.com/apple-yinhan/Noise-robust-SED.