HyperAIHyperAI

Command Palette

Search for a command to run...

Einheitliche Spracherkennung: Ein einziges Modell für auditive, visuelle und audiovisuelle Eingaben

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

Zusammenfassung

Forschungen im Bereich der akustischen, visuellen und audiovisuellen Spracherkennung (ASR, VSR und AVSR) wurden traditionell unabhängig voneinander durchgeführt. Selbst jüngere selbstüberwachte Studien, die zwei oder alle drei Aufgaben gleichzeitig bearbeiten, neigen dazu, getrennte Modelle zu erzeugen, was zu disjunkten Inferenzpipelines mit erhöhten Speicheranforderungen und Redundanzen führt. In dieser Arbeit schlagen wir einheitliche Trainingsstrategien für diese Systeme vor. Wir zeigen, dass das Training eines einzelnen Modells für alle drei Aufgaben die Leistung von VSR und AVSR verbessert und typische Optimierungsherausforderungen beim Training von Grund auf überwindet. Darüber hinaus stellen wir einen gierigen Pseudo-Labeling-Ansatz vor, um unbeschriftete Stichproben effektiver zu nutzen und Mängel in verwandten selbstüberwachten Methoden zu beheben. Schließlich entwickeln wir eine selbstüberwachte Vortrainingsmethode innerhalb unseres Rahmens und beweisen ihre Effektivität neben unserem semi-überwachten Ansatz. Trotz der Verwendung eines einzigen Modells für alle Aufgaben erreicht unser einheitlicher Ansatz vergleichbare erstklassige Ergebnisse wie aktuelle Methoden auf LRS3 und LRS2 für ASR, VSR und AVSR sowie auf dem neu veröffentlichten WildVSR-Datensatz. Der Quellcode und die Modelle sind unter https://github.com/ahaliassos/usr verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp