Zu einer praktikablen Lippenlesung mit distillierten und effizienten Modellen

Die Lippenlesung hat infolge der Wiederbelebung neuronaler Netze erhebliche Fortschritte gemacht. Neuere Arbeiten legen den Fokus auf Aspekte wie die Steigerung der Leistung durch die Suche nach optimalen Architekturen oder die Verbesserung der Generalisierungsfähigkeit. Dennoch besteht weiterhin eine erhebliche Lücke zwischen den aktuellen Methoden und den Anforderungen für eine effektive Anwendung der Lippenlesung in praktischen Szenarien. In dieser Arbeit präsentieren wir eine Reihe von Innovationen, die diese Lücke signifikant schließen: Erstens erreichen wir mit Hilfe von Selbst-Distillation eine deutliche Steigerung der Zustandsbesten-Leistung auf den Datensätzen LRW und LRW-1000 auf 88,5 % beziehungsweise 46,6 %. Zweitens schlagen wir eine Reihe architektonischer Verbesserungen vor, darunter einen neuartigen Depthwise Separable Temporal Convolutional Network (DS-TCN)-Kopf, der die Rechenkosten auf einen Bruchteil (bereits sehr effizienter) ursprünglicher Modelle reduziert. Drittens zeigen wir, dass Knowledge Distillation ein äußerst wirksames Werkzeug zur Wiederherstellung der Leistung leichtgewichtiger Modelle ist. Dies führt zu einer Vielzahl von Modellen mit unterschiedlichen Kompromissen zwischen Genauigkeit und Effizienz. Insbesondere unsere vielversprechendsten leichten Modelle erreichen die Leistung der aktuellen Zustandsbesten, während sie gleichzeitig eine Reduktion der Rechenkosten um den Faktor 8,2 und der Anzahl der Parameter um den Faktor 3,9 aufweisen – eine Entwicklung, die wir hoffen, die praktische Anwendung von Lippenlesemodellen ermöglichen wird.