تعلم تمثيل الرسم البياني للعلاقات الحدودية متعدد الأبعاد القائمة على الصوت لتصنيف المشهد الصوتي

تُستخدم معظم النماذج الحالية القائمة على التعلم العميق لتصنيف المشاهد الصوتية (ASC) تمثيلات مستخرجة مباشرة من التمثيلات الطيفية لتحديد المشاهد المستهدفة. ومع ذلك، فإن هذه النماذج لا تولي اهتمامًا كبيرًا للأحداث الصوتية التي تحدث في المشهد، رغم أنها تقدم معلومات دلالية حيوية. تُعد هذه الدراسة الأولى التي تحقق في إمكانية التعرف الموثوق على المشاهد الصوتية الحقيقية بناءً فقط على السمات التي تصف عددًا محدودًا من الأحداث الصوتية. ولنمذجة العلاقات الخاصة بالمهام بين المشاهد الصوتية العامة والتفاصيل الدقيقة للأحداث الصوتية، نقترح إطارًا يُسمى "تعلم تمثيل الرسم البياني للعلاقات بين الأحداث" (ERGL) لتصنيف المشاهد الصوتية. وبشكل محدد، يتعلم ERGL تمثيلًا رسوميًا لمشهد صوتي من الصوت المدخل، حيث يُعامل تمثيل كل حدث كعقدة، بينما تُوصف ملامح الحواف متعددة الأبعاد المستخلصة من كل زوج من تمثيلات الأحداث من خلال ميزة حافة مُدرَّبة. أظهرت التجارب على مجموعة بيانات مشاهد صوتية متعددة الأصوات أن النموذج المقترح ERGL يحقق أداءً تنافسيًا في تصنيف المشاهد الصوتية باستخدام عدد محدود جدًا من تمثيلات الأحداث الصوتية دون الحاجة إلى أي عمليات تضخيم للبيانات. وتوحي صحة الإطار المقترح ERGL بجديّة التعرف على مشاهد صوتية متنوعة بناءً على الرسم البياني للعلاقات بين الأحداث. يمكن الوصول إلى الكود الخاص بنا من خلال موقعنا الإلكتروني (https://github.com/Yuanbo2020/ERGL).