Effiziente Video-Objekt-Segmentierung durch Netzwerk-Modulation

Die Video-Objekt-Segmentierung zielt darauf ab, ein bestimmtes Objekt über die gesamte Videosequenz hinweg zu segmentieren, wobei nur das erste Frame annotiert ist. Neuere Ansätze auf Basis des tiefen Lernens haben gezeigt, dass es effektiv ist, ein allgemeines Segmentierungsmodell durch Hunderte von Gradientenabstiegsiterationen am annotierten Frame weiterzutrainieren (fine-tuning). Trotz der hohen Genauigkeit, die diese Methoden erzielen, ist der Fine-Tuning-Prozess ineffizient und erfüllt nicht die Anforderungen realer Anwendungen. Wir schlagen einen neuen Ansatz vor, der das Segmentierungsmodell durch eine einzelne Vorwärtsdurchlauf an das Erscheinungsbild eines spezifischen Objekts anpasst. Insbesondere wird ein zweites Meta-Neuronales Netzwerk namens Modulator gelernt, um die Zwischenschichten des Segmentierungsnetzwerks unter Verwendung begrenzter visueller und räumlicher Informationen des Zielobjekts zu manipulieren. Die Experimente zeigen, dass unser Ansatz 70-mal schneller als Fine-Tuning-Ansätze ist und gleichzeitig ähnliche Genauigkeit erreicht.