HyperAIHyperAI
vor 2 Monaten

Lernen, was zu lernen ist, für die Video-Objekt-Segmentierung

Goutam Bhat; Felix Järemo Lawin; Martin Danelljan; Andreas Robinson; Michael Felsberg; Luc Van Gool; Radu Timofte
Lernen, was zu lernen ist, für die Video-Objekt-Segmentierung
Abstract

Die Video-Objekt-Segmentierung (VOS) ist ein hochgradig anspruchsvolles Problem, da das Zielobjekt erst während der Inferenz mit einem gegebenen Referenzmasken des ersten Frames definiert wird. Die Frage, wie diese begrenzten Zielinformationen erfasst und genutzt werden können, bleibt eine grundlegende Forschungsfrage. Wir beantworten dies durch die Einführung einer von Anfang bis Ende trainierbaren VOS-Architektur, die ein differenzierbares Few-Shot-Learning-Modul integriert. Dieser interne Lerner ist so konzipiert, dass er ein leistungsfähiges parametrisches Modell des Ziels vorhersagt, indem er den Segmentierungsfehler im ersten Frame minimiert. Wir gehen über standardmäßige Few-Shot-Learning-Techniken hinaus, indem wir lernen, was der Few-Shot-Lerner lernen sollte. Dies ermöglicht es uns, eine reichhaltige interne Darstellung des Ziels im aktuellen Frame zu erreichen und die Segmentierungsgenauigkeit unseres Ansatzes erheblich zu verbessern. Wir führen umfangreiche Experimente auf mehreren Benchmarks durch. Unser Ansatz setzt einen neuen Stand der Technik im großen YouTube-VOS 2018-Datensatz, indem er einen Gesamtscore von 81,5 erreicht, was einer relativen Verbesserung von 2,6 % gegenüber dem bisher besten Ergebnis entspricht.

Lernen, was zu lernen ist, für die Video-Objekt-Segmentierung | Neueste Forschungsarbeiten | HyperAI