Ein audio-visuelles Sprachtrennmodell, inspiriert von cortico-thalamo-corticalen Schaltkreisen

Audio-visuelle Ansätze, die visuelle Eingaben einbeziehen, haben die Grundlage für die jüngsten Fortschritte in der Sprachtrennung gelegt. Die Optimierung der gleichzeitigen Nutzung auditorischer und visueller Eingaben bleibt jedoch ein aktives Forschungsfeld. Inspiriert durch den cortico-thalamo-corticalen Schaltkreis, bei dem die sensorischen Verarbeitungsmechanismen verschiedener Modalitäten über den nicht-lemniskalen sensorischen Thalamus gegenseitig beeinflusst werden, schlagen wir ein neuartiges cortico-thalamo-corticales neuronales Netzwerk (CTCNet) für die audio-visuelle Sprachtrennung (AVSS) vor. Zunächst lernt das CTCNet hierarchische auditorische und visuelle Repräsentationen auf einer bottom-up-Architektur in getrennten auditorischen und visuellen Subnetzen, wodurch die Funktionen der auditorischen und visuellen kortikalen Areale nachgebildet werden. Anschließend, inspiriert durch die große Zahl von Verbindungen zwischen kortikalen Regionen und dem Thalamus, fusioniert das Modell auditorische und visuelle Informationen in einem thalamischen Subnetz über top-down-Verbindungen. Schließlich überträgt das Modell diese gefundene Information zurück zu den auditorischen und visuellen Subnetzen, wobei der gesamte Prozess mehrmals wiederholt wird. Die Ergebnisse von Experimenten an drei etablierten Benchmark-Datensätzen zur Sprachtrennung zeigen, dass das CTCNet bestehende AVSS-Methoden erheblich übertrifft, und zwar mit erheblich weniger Parametern. Diese Ergebnisse deuten darauf hin, dass die Nachbildung des anatomischen Connectoms des Säugetiergehirns großes Potenzial für die Weiterentwicklung tiefer neuronaler Netze besitzt. Projekt-Repository: https://github.com/JusperLee/CTCNet.