HyperAIHyperAI
منذ 17 أيام

مُحَوِّلات الصوت

Verma, Prateek, Berger, Jonathan
مُحَوِّلات الصوت
الملخص

خلال العقدين الماضيين، أنتجت هياكل الشبكات العصبية التلافيفية (CNN) نماذج مقنعة لفهم الصوت والتمييز السمعي، حيث تتعلم التنظيم الهرمي للميزات. وتشبه هذه النجاحات في مجال الرؤية الحاسوبية، حيث يمكن تحسين تصنيف ميزات الصوت لمهام معينة محددة، على مجموعة واسعة من المجموعات البيانات والتصنيفات. في الواقع، أثبتت الهياكل المشابهة المصممة لفهم الصور فعاليتها في تحليل المشهد الصوتي. هنا، نقترح تطبيق هياكل تعتمد على المُحَوِّل (Transformer) دون استخدام طبقات تلافيفية مباشرة على الإشارات الصوتية الخام. على مجموعة بيانات قياسية تُسمى Free Sound 50K، التي تتضمن 200 فئة، تفوق نموذجنا النماذج التلافيفية، مما يحقق نتائج متقدمة على مستوى التقنية الحالية. ويعتبر هذا إنجازًا مهمًا، إذ على عكس ما يحدث في معالجة اللغة الطبيعية والرؤية الحاسوبية، لا نقوم بتدريب مسبق غير مراقب (unsupervised pre-training) لتفوق النماذج التلافيفية. وعلى نفس مجموعة التدريب، نُظهر تحسنًا كبيرًا مقارنةً بمقاييس الدقة المتوسطة. كما نُحسّن أداء هياكل المُحَوِّل باستخدام تقنيات مثل التجميع (pooling) المستوحاة من الشبكات التلافيفية التي طوّرت خلال السنوات القليلة الماضية. بالإضافة إلى ذلك، نُظهر كيف يمكن تطبيق أفكار المعالجة الإشارية متعددة المعدلات المستوحاة من الموجات الصغيرة (wavelets) على تمثيلات المُحَوِّل (Transformer embeddings) لتحسين النتائج. ونُظهر أيضًا كيف يتعلم نموذجنا بنية مُحَوِّلة غير خطية وغير ثابتة العرض النطاقي (bandwidth)، مما يُظهر تمثيلًا متكيفًا في المجال الزمني-الترددية أمام المهمة المتعلقة بفهم الصوت، وهو تمثيل مختلف عن المهام الأخرى مثل تقدير النغمة (pitch estimation).