HyperAIHyperAI

Command Palette

Search for a command to run...

SALSA: ميزات التسجيل الصوتي اللوغاريتمي المُعززة بالمؤشرات المكانية لتحديد وتحديد مواقع أحداث الصوت المتعددة الأصوات

Thi Ngoc Tho Nguyen Karn N. Watcharasupat Ngoc Khanh Nguyen Douglas L. Jones Woon-Seng Gan

الملخص

تتألف مهمة تحديد وتحديد موقع الأحداث الصوتية (SELD) من مهام فرعية اثنتين، وهما: تحديد الأحداث الصوتية، وتقدير اتجاه الوصول (DOA). في حين يعتمد تحديد الأحداث الصوتية بشكل رئيسي على أنماط الزمن-التردد لتمييز فئات الصوت المختلفة، يستخدم تقدير اتجاه الوصول فروق في الشدة و/أو الطور بين الميكروفونات لتقدير اتجاه مصدر الصوت. نتيجة لذلك، يُعدّ من الصعب عادةً تحسين هاتين المهمتين معًا بشكل مشترك. نقترح ميزة جديدة تُسمى "مخطط الطيف اللوغاريتمي المُعزّز بالمؤشرات المكانية" (SALSA)، والتي تضمن تطابقًا دقيقًا بين قوة الإشارة ومؤشرات الاتجاه المكانية في كل نقطة زمنية-ترددية، وهو أمر بالغ الأهمية لحل مشكلة تداخل مصادر الصوت. تتكون ميزة SALSA من مخططات الطيف اللوغاريتمية متعددة القنوات التي تُرصَّ على طول المتجه الرئيسي القياسي لمصفوفة التباين المكاني في كل نقطة زمنية-ترددية متوافقة. ووفقًا لتنسيق مصفوفة الميكروفونات، يمكن تطبيع المتجه الرئيسي بشكل مختلف لاستخلاص فروق في الشدة و/أو الطور بين الميكروفونات. وبذلك، تُعدّ ميزات SALSA قابلة للتطبيق على تنسيقات مختلفة لمصفوفات الميكروفونات، مثل الأكوستيك الأولية من الرتبة الأولى (FOA) ومتعددة القنوات (MIC). أظهرت النتائج التجريبية على مجموعة بيانات TAU-NIGENS للأحداث الصوتية المكانية لعام 2021، مع وجود تداخلات اتجاهية، أن ميزات SALSA تفوق الميزات الحديثة الأخرى. وبشكل خاص، أدى استخدام ميزات SALSA في تنسيق FOA إلى زيادة في درجة F1 والذكرى المكانية بنسبة 6% لكل منهما مقارنةً ببيانات الطيف اللوغاريتمي متعدد القنوات مع متجهات الشدة. أما في تنسيق MIC، فقد زاد استخدام ميزات SALSA من درجة F1 والذكرى المكانية بنسبة 16% و7% على التوالي مقارنةً باستخدام الطيف اللوغاريتمي متعدد القنوات مع طيف التغاير العام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SALSA: ميزات التسجيل الصوتي اللوغاريتمي المُعززة بالمؤشرات المكانية لتحديد وتحديد مواقع أحداث الصوت المتعددة الأصوات | مستندات | HyperAI