HyperAIHyperAI

Command Palette

Search for a command to run...

Ein audio-visuelles Sprachtrennmodell, inspiriert von cortico-thalamo-corticalen Schaltkreisen

Kai Li Fenghua Xie Hang Chen Kexin Yuan Xiaolin Hu

Zusammenfassung

Audio-visuelle Ansätze, die visuelle Eingaben einbeziehen, haben die Grundlage für die jüngsten Fortschritte in der Sprachtrennung gelegt. Die Optimierung der gleichzeitigen Nutzung auditorischer und visueller Eingaben bleibt jedoch ein aktives Forschungsfeld. Inspiriert durch den cortico-thalamo-corticalen Schaltkreis, bei dem die sensorischen Verarbeitungsmechanismen verschiedener Modalitäten über den nicht-lemniskalen sensorischen Thalamus gegenseitig beeinflusst werden, schlagen wir ein neuartiges cortico-thalamo-corticales neuronales Netzwerk (CTCNet) für die audio-visuelle Sprachtrennung (AVSS) vor. Zunächst lernt das CTCNet hierarchische auditorische und visuelle Repräsentationen auf einer bottom-up-Architektur in getrennten auditorischen und visuellen Subnetzen, wodurch die Funktionen der auditorischen und visuellen kortikalen Areale nachgebildet werden. Anschließend, inspiriert durch die große Zahl von Verbindungen zwischen kortikalen Regionen und dem Thalamus, fusioniert das Modell auditorische und visuelle Informationen in einem thalamischen Subnetz über top-down-Verbindungen. Schließlich überträgt das Modell diese gefundene Information zurück zu den auditorischen und visuellen Subnetzen, wobei der gesamte Prozess mehrmals wiederholt wird. Die Ergebnisse von Experimenten an drei etablierten Benchmark-Datensätzen zur Sprachtrennung zeigen, dass das CTCNet bestehende AVSS-Methoden erheblich übertrifft, und zwar mit erheblich weniger Parametern. Diese Ergebnisse deuten darauf hin, dass die Nachbildung des anatomischen Connectoms des Säugetiergehirns großes Potenzial für die Weiterentwicklung tiefer neuronaler Netze besitzt. Projekt-Repository: https://github.com/JusperLee/CTCNet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp