تصحيح الطيف: تصنيف المشهد الصوتي مع أجهزة تسجيل غير متطابقة

عند تدريب خوارزميات التعلم الآلي على تسجيلات صوتية من مجموعة محدودة من الأجهزة، قد لا تُظهر أداءً جيدًا عند تطبيقها على عينات تم تسجيلها باستخدام أجهزة أخرى ذات استجابة ترددية مختلفة. في هذه الدراسة، تم تقديم طريقة نسبيًا بسيطة لمعالجة هذه المشكلة. وتم عرض نسختين من هذا النهج: الأولى تتطلب أمثلة مُحاذاة من عدة أجهزة، بينما تخفف النسخة الثانية من هذه المتطلبات. تعمل هذه الطريقة على تمثيلات الصوت في كل من المجال الزمني والمجال الترددي. بالإضافة إلى ذلك، تم تحليل العلاقة بين هذه الطريقة والتوحيد (Standardization) وطرح المتوسط السبيتري (Cepstral Mean Subtraction). وقد أظهرت الطريقة فعاليتها حتى عند توفر عدد قليل جدًا من الأمثلة. وقد تم تطوير هذه الطريقة خلال مسابقة الكشف والتصنيف المشاهد والحوادث الصوتية (DCASE) 2019، وحققت المركز الأول في السيناريو الذي يشمل أجهزة تسجيل غير متطابقة، بتحقيق دقة وصلت إلى 75%. ويمكن العثور على الشفرة المصدرية للتجارب عبر الإنترنت.