نموذج فصل الكلام الصوتي البصري المستوحى من الدوائر القشريّة-الثلاّمية-القشريّة

النُهج الصوتية البصرية التي تعتمد على المدخلات البصرية قد وضعت الأساس للتقدم الأخير في فصل الكلام. ومع ذلك، يظل تحسين الاستخدام المتزامن للمدخلات السمعية والبصرية مجالًا بحثيًا نشطًا. مستوحى من الدائرة القشرية-الغدة الجذعية-القشرية، التي تُظهر فيها آليات معالجة الحواس المختلفة تأثيرات متبادلة عبر الغدة الجذعية الحسية غير الليمنيسكية، نقترح شبكة عصبية جديدة تُسمى CTCNet (الشبكة العصبية القشرية-الغدة الجذعية-القشرية) لفصل الكلام الصوتي البصري (AVSS). أولاً، تتعلم CTCNet تمثيلات هرمية سمعية وبصرية بطريقة تنازلية في شبكات فرعية منفصلة للسمع والبصر، محاكيةً وظائف المناطق القشرية السمعية والبصرية. ثم، مستوحاة من العدد الكبير من الاتصالات بين المناطق القشرية والغدة الجذعية، تقوم النموذج بدمج المعلومات السمعية والبصرية في شبكة فرعية غدة جذعية من خلال اتصالات علوية. وأخيرًا، يُرسل النموذج هذه المعلومات المدمجة مرة أخرى إلى الشبكات الفرعية للسمع والبصر، وتُكرر هذه العملية عدة مرات. أظهرت نتائج التجارب على ثلاث مجموعات معيارية لفصل الكلام أن CTCNet تتفوق بشكل ملحوظ على الطرق الحالية لفصل الكلام الصوتي البصري، مع عدد أقل بكثير من المعلمات. تشير هذه النتائج إلى أن محاكاة الهيكل الاتصالي التشريحي للدماغ الثديي تمتلك إمكانات كبيرة في دفع تطوير الشبكات العصبية العميقة. يمكن الاطلاع على مشروع المصدر من خلال الرابط التالي: https://github.com/JusperLee/CTCNet.