SALSA: ميزات التسجيل الصوتي اللوغاريتمي المُعززة بالمؤشرات المكانية لتحديد وتحديد مواقع أحداث الصوت المتعددة الأصوات

تتألف مهمة تحديد وتحديد موقع الأحداث الصوتية (SELD) من مهام فرعية اثنتين، وهما: تحديد الأحداث الصوتية، وتقدير اتجاه الوصول (DOA). في حين يعتمد تحديد الأحداث الصوتية بشكل رئيسي على أنماط الزمن-التردد لتمييز فئات الصوت المختلفة، يستخدم تقدير اتجاه الوصول فروق في الشدة و/أو الطور بين الميكروفونات لتقدير اتجاه مصدر الصوت. نتيجة لذلك، يُعدّ من الصعب عادةً تحسين هاتين المهمتين معًا بشكل مشترك. نقترح ميزة جديدة تُسمى "مخطط الطيف اللوغاريتمي المُعزّز بالمؤشرات المكانية" (SALSA)، والتي تضمن تطابقًا دقيقًا بين قوة الإشارة ومؤشرات الاتجاه المكانية في كل نقطة زمنية-ترددية، وهو أمر بالغ الأهمية لحل مشكلة تداخل مصادر الصوت. تتكون ميزة SALSA من مخططات الطيف اللوغاريتمية متعددة القنوات التي تُرصَّ على طول المتجه الرئيسي القياسي لمصفوفة التباين المكاني في كل نقطة زمنية-ترددية متوافقة. ووفقًا لتنسيق مصفوفة الميكروفونات، يمكن تطبيع المتجه الرئيسي بشكل مختلف لاستخلاص فروق في الشدة و/أو الطور بين الميكروفونات. وبذلك، تُعدّ ميزات SALSA قابلة للتطبيق على تنسيقات مختلفة لمصفوفات الميكروفونات، مثل الأكوستيك الأولية من الرتبة الأولى (FOA) ومتعددة القنوات (MIC). أظهرت النتائج التجريبية على مجموعة بيانات TAU-NIGENS للأحداث الصوتية المكانية لعام 2021، مع وجود تداخلات اتجاهية، أن ميزات SALSA تفوق الميزات الحديثة الأخرى. وبشكل خاص، أدى استخدام ميزات SALSA في تنسيق FOA إلى زيادة في درجة F1 والذكرى المكانية بنسبة 6% لكل منهما مقارنةً ببيانات الطيف اللوغاريتمي متعدد القنوات مع متجهات الشدة. أما في تنسيق MIC، فقد زاد استخدام ميزات SALSA من درجة F1 والذكرى المكانية بنسبة 16% و7% على التوالي مقارنةً باستخدام الطيف اللوغاريتمي متعدد القنوات مع طيف التغاير العام.