HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج فصل الكلام الصوتي البصري المستوحى من الدوائر القشريّة-الثلاّمية-القشريّة

Kai Li Fenghua Xie Hang Chen Kexin Yuan Xiaolin Hu

الملخص

النُهج الصوتية البصرية التي تعتمد على المدخلات البصرية قد وضعت الأساس للتقدم الأخير في فصل الكلام. ومع ذلك، يظل تحسين الاستخدام المتزامن للمدخلات السمعية والبصرية مجالًا بحثيًا نشطًا. مستوحى من الدائرة القشرية-الغدة الجذعية-القشرية، التي تُظهر فيها آليات معالجة الحواس المختلفة تأثيرات متبادلة عبر الغدة الجذعية الحسية غير الليمنيسكية، نقترح شبكة عصبية جديدة تُسمى CTCNet (الشبكة العصبية القشرية-الغدة الجذعية-القشرية) لفصل الكلام الصوتي البصري (AVSS). أولاً، تتعلم CTCNet تمثيلات هرمية سمعية وبصرية بطريقة تنازلية في شبكات فرعية منفصلة للسمع والبصر، محاكيةً وظائف المناطق القشرية السمعية والبصرية. ثم، مستوحاة من العدد الكبير من الاتصالات بين المناطق القشرية والغدة الجذعية، تقوم النموذج بدمج المعلومات السمعية والبصرية في شبكة فرعية غدة جذعية من خلال اتصالات علوية. وأخيرًا، يُرسل النموذج هذه المعلومات المدمجة مرة أخرى إلى الشبكات الفرعية للسمع والبصر، وتُكرر هذه العملية عدة مرات. أظهرت نتائج التجارب على ثلاث مجموعات معيارية لفصل الكلام أن CTCNet تتفوق بشكل ملحوظ على الطرق الحالية لفصل الكلام الصوتي البصري، مع عدد أقل بكثير من المعلمات. تشير هذه النتائج إلى أن محاكاة الهيكل الاتصالي التشريحي للدماغ الثديي تمتلك إمكانات كبيرة في دفع تطوير الشبكات العصبية العميقة. يمكن الاطلاع على مشروع المصدر من خلال الرابط التالي: https://github.com/JusperLee/CTCNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp