HyperAIHyperAI
vor 2 Monaten

Einheitliche Spracherkennung: Ein einziges Modell für auditive, visuelle und audiovisuelle Eingaben

Haliassos, Alexandros ; Mira, Rodrigo ; Chen, Honglie ; Landgraf, Zoe ; Petridis, Stavros ; Pantic, Maja
Einheitliche Spracherkennung: Ein einziges Modell für auditive, visuelle und audiovisuelle Eingaben
Abstract

Forschungen im Bereich der akustischen, visuellen und audiovisuellen Spracherkennung (ASR, VSR und AVSR) wurden traditionell unabhängig voneinander durchgeführt. Selbst jüngere selbstüberwachte Studien, die zwei oder alle drei Aufgaben gleichzeitig bearbeiten, neigen dazu, getrennte Modelle zu erzeugen, was zu disjunkten Inferenzpipelines mit erhöhten Speicheranforderungen und Redundanzen führt. In dieser Arbeit schlagen wir einheitliche Trainingsstrategien für diese Systeme vor. Wir zeigen, dass das Training eines einzelnen Modells für alle drei Aufgaben die Leistung von VSR und AVSR verbessert und typische Optimierungsherausforderungen beim Training von Grund auf überwindet. Darüber hinaus stellen wir einen gierigen Pseudo-Labeling-Ansatz vor, um unbeschriftete Stichproben effektiver zu nutzen und Mängel in verwandten selbstüberwachten Methoden zu beheben. Schließlich entwickeln wir eine selbstüberwachte Vortrainingsmethode innerhalb unseres Rahmens und beweisen ihre Effektivität neben unserem semi-überwachten Ansatz. Trotz der Verwendung eines einzigen Modells für alle Aufgaben erreicht unser einheitlicher Ansatz vergleichbare erstklassige Ergebnisse wie aktuelle Methoden auf LRS3 und LRS2 für ASR, VSR und AVSR sowie auf dem neu veröffentlichten WildVSR-Datensatz. Der Quellcode und die Modelle sind unter https://github.com/ahaliassos/usr verfügbar.