HyperAIHyperAI

Command Palette

Search for a command to run...

AutoSpeech: بحث في البنية العصبية للتعريف بالصوت

Shaojin Ding Tianlong Chen Xinyu Gong Weiwei Zha Zhangyang Wang

الملخص

تُبنى أنظمة تمييز المتكلمين المستندة إلى الشبكات العصبية التلافيفية (CNNs) غالبًا باستخدام هياكل جاهزة مثل VGG-Net أو ResNet. ومع ذلك، فقد تم اقتراح هذه الهياكل الأصلية لأغراض تصنيف الصور، وبالتالي قد لا تكون مناسبة بشكل طبيعي لمهام تمييز المتكلمين. وبسبب التعقيد الكبير الذي يفرضه الاستكشاف اليدوي لفضاء التصميم، نقترح أول منهجية لبحث الهيكل العصبي (Neural Architecture Search) مخصصة لمهام تمييز المتكلمين، ونُسمّيها AutoSpeech. يبدأ خوارزميتنا بتحديد أفضل تركيبة من العمليات داخل الخلية العصبية، ثم تُبنى نموذج CNN من خلال تكرار تجميع الخلية العصبية عدة مرات. ويمكن الحصول على النموذج النهائي لتمييز المتكلمين عن طريق تدريب النموذج المُستَخلص من CNN باستخدام المنهجية القياسية. ولتقييم المنهجية المقترحة، أجرينا تجارب على مهام التعرف على المتكلم والتحقق من الهوية باستخدام مجموعة بيانات VoxCeleb1. وأظهرت النتائج أن الهياكل التلافيفية المستخلصة من المنهجية المقترحة تتفوق بشكل كبير على الأنظمة الحالية لتمييز المتكلمين التي تعتمد على الهياكل الأساسية VGG-M وResNet-18 وResNet-34، مع الحفاظ على تعقيد نموذج أقل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp