Wiederkehr ohne Wiederkehr: Stabile Video-Objektpunkt-Detektion mit Deep-Equilibrium-Modellen

Kaskadierte Berechnung, bei der Vorhersagen über mehrere Stufen hinweg rekurrent verfeinert werden, ist ein stetiger Leitgedanke in der Entwicklung von Modellen zur Gesichtslandmarkendetektion. In dieser Arbeit zeigen wir, dass der kürzlich vorgeschlagene Deep Equilibrium Model (DEQ) natürlicherweise für diese Art der Berechnung geeignet ist. Unser Landmark DEQ (LDEQ) erreicht eine state-of-the-art-Leistung auf dem anspruchsvollen WFLW-Gesichtslandmarkendatensatz und erzielt dabei eine NME von $3.92$ mit weniger Parametern und einem Trainings-Speicherverbrauch von $\mathcal{O}(1)$ in Abhängigkeit von der Anzahl der rekurrenten Module. Darüber hinaus zeigen wir, dass DEQs besonders gut für die Landmarkendetektion in Videos geeignet sind. In dieser Anwendung ist es üblich, auf statischen Bildern zu trainieren, da qualitativ hochwertige, annotierte Videodaten fehlen. Dies kann zu einem sogenannten „Flicker-Effekt“ während der Inferenz im Video führen, bei dem das Modell zwischen verschiedenen plausiblen Lösungen in aufeinanderfolgenden Frames schnell oszilliert. Durch die Umformulierung von DEQs als eingeschränktes Optimierungsproblem emulieren wir die Rekurrenz zur Inferenzzeit, obwohl während des Trainings keine zeitlichen Daten zur Verfügung stehen. Dieses Paradigma des „Recurrence without Recurrence“ (RwR) trägt dazu bei, den Landmarken-Flicker zu reduzieren, was wir durch die Einführung einer neuen Metrik, der normalisierten mittleren Flicker-Intensität (NMF), und die Bereitstellung eines neuen Video-Datensatzes für Gesichtslandmarken (WFLW-V) zur Erfassung von Unsicherheiten demonstrieren. Auf der harten Teilmenge des WFLW-V-Datensatzes mit $500$ Videos verbessert unser LDEQ mit RwR die NME und NMF im Vergleich zum bisher stärksten veröffentlichten Modell, das einen handkodierten herkömmlichen Filter verwendet, um jeweils $10\,\%$ und $13\,\%$.