HyperAIHyperAI
منذ 16 أيام

AutoSpeech: بحث في البنية العصبية للتعريف بالصوت

Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang
AutoSpeech: بحث في البنية العصبية للتعريف بالصوت
الملخص

تُبنى أنظمة تمييز المتكلمين المستندة إلى الشبكات العصبية التلافيفية (CNNs) غالبًا باستخدام هياكل جاهزة مثل VGG-Net أو ResNet. ومع ذلك، فقد تم اقتراح هذه الهياكل الأصلية لأغراض تصنيف الصور، وبالتالي قد لا تكون مناسبة بشكل طبيعي لمهام تمييز المتكلمين. وبسبب التعقيد الكبير الذي يفرضه الاستكشاف اليدوي لفضاء التصميم، نقترح أول منهجية لبحث الهيكل العصبي (Neural Architecture Search) مخصصة لمهام تمييز المتكلمين، ونُسمّيها AutoSpeech. يبدأ خوارزميتنا بتحديد أفضل تركيبة من العمليات داخل الخلية العصبية، ثم تُبنى نموذج CNN من خلال تكرار تجميع الخلية العصبية عدة مرات. ويمكن الحصول على النموذج النهائي لتمييز المتكلمين عن طريق تدريب النموذج المُستَخلص من CNN باستخدام المنهجية القياسية. ولتقييم المنهجية المقترحة، أجرينا تجارب على مهام التعرف على المتكلم والتحقق من الهوية باستخدام مجموعة بيانات VoxCeleb1. وأظهرت النتائج أن الهياكل التلافيفية المستخلصة من المنهجية المقترحة تتفوق بشكل كبير على الأنظمة الحالية لتمييز المتكلمين التي تعتمد على الهياكل الأساسية VGG-M وResNet-18 وResNet-34، مع الحفاظ على تعقيد نموذج أقل.

AutoSpeech: بحث في البنية العصبية للتعريف بالصوت | أحدث الأوراق البحثية | HyperAI