STARSS22: مجموعة بيانات تسجيلات مكانيّة لمشاهد حقيقية مع تعليقات مكانيّة زمنيّة على أحداث الصوت

يقدم هذا التقرير مجموعة بيانات سوني-تاؤ للمناظر الصوتية الواقعية 2022 (STARS22) الخاصة بتحديد وتحديد موقع الأحداث الصوتية، والتي تتكون من تسجيلات مكانيّة لمشاهد حقيقية تم جمعها في مختلف المداخل ل SITEين مختلفين. تم التقاط المجموعة باستخدام مصفوفة ميكروفون كروية عالية الدقة، وتم تسليمها بصيغتين من أربع قنوات: التماسك الأولي (First-order Ambisonics) وشبكة ميكروفون رباعية الوجوه (Tetrahedral Microphone Array). تم تسمية الأحداث الصوتية الواردة في المجموعة، التي تنتمي إلى 13 فئة صوتية مستهدفة، من حيث الزمن والمكان من خلال مزيج من التسمية البشرية والتتبع البصري. تُستخدم هذه المجموعة كمجموعة تطوير وتقييم لمهام (Task 3) في تحدي DCASE2022 المعني بتحديد وتحديد موقع الأحداث الصوتية، وتُقدّم تحديات جديدة كبيرة مقارنة بالإصدارات السابقة التي كانت تعتمد على مشاهد صوتية مُسَيَّرة اصطناعيًا. وتشمل التفاصيل المفصلة في التقرير عملية التسجيل والتسمية، والفئات المستهدفة ووجودها، وتفاصيل التقسيم المُستخدم في التدريب والتقييم. بالإضافة إلى ذلك، يقدم التقرير النظام الأساسي المرافق للمجموعة في التحدي، مع التركيز على الفروقات بين هذا النظام والأساسيات المستخدمة في الإصدارات السابقة، أبرزها إدخال تمثيل متعدد ACCDOA لمعالجة حدوث متزامن لعدة أحداث من نفس الفئة، ودعم ميزات إدخال محسّنة إضافية بالنسبة لصيغة مصفوفة الميكروفون. تُظهر نتائج النظام الأساسي أن أداء معقول في التعرف على الأحداث وتحديد موقعها يمكن تحقيقه باستخدام استراتيجية تدريب مناسبة على مشاهد صوتية حقيقية. تتوفر المجموعة عبر الرابط: https://zenodo.org/record/6387880.