HyperAIHyperAI

Command Palette

Search for a command to run...

استخدام نماذج اللغة الكبيرة (LLM) والفصل المستند إلى النص للكشف عن الأحداث الصوتية المقاومة للضوضاء

Han Yin Yang Xiao Jisheng Bai Rohan Kumar Das

الملخص

اكتشاف الأحداث الصوتية (SED) يشكل تحديًا في البيئات الضوضائية حيث تغطي الأصوات المتداخلة الأحداث المستهدفة. يهدف فصل مصدر الصوت بالاستعلام اللغوي (LASS) إلى عزل الأحداث الصوتية المستهدفة من مقطع ضوضائي. ومع ذلك، يمكن أن تفشل هذه الطريقة عندما يكون الصوت المستهدف غير معروف تمامًا، خاصة في مجموعات الاختبار الضوضائية، مما يؤدي إلى انخفاض الأداء. لمعالجة هذه المشكلة، نستفيد من قدرات النماذج اللغوية الكبيرة (LLMs) لتحليل وتقديم ملخص للبيانات الصوتية. من خلال استخدام النماذج اللغوية الكبيرة لتحديد واختيار أنواع ضوضاء معينة، نقوم بتنفيذ طريقة زيادة الضوضاء لضبط الدقة المقاوم للضوضاء. يتم تطبيق النموذج المعدّل لتنبؤه بالأحداث في المقاطع كاستعلامات نصية للنموذج LASS. تظهر دراساتنا أن الطريقة المقترحة تحسن أداء SED في البيئات الضوضائية. يمثل هذا العمل تطبيقًا مبكرًا للنماذج اللغوية الكبيرة في SED المقاوم للضوضاء ويقترح اتجاهًا واعدًا لمعالجة الأحداث المتداخلة في SED. يمكن الوصول إلى الرموز والنماذج المدربة مسبقًا على الرابط التالي: https://github.com/apple-yinhan/Noise-robust-SED.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp