VarNet: Untersuchung von Variationen für die überwachungsfreie Videovorhersage
Unüberwachtes Videovorhersage ist aufgrund der Komplexität und Vielfalt natürlicher Szenen eine äußerst herausfordernde Aufgabe. Vorangegangene Ansätze, die direkt Pixel oder optische Flüsse vorhersagen, leiden entweder unter Verschmierung oder erfordern zusätzliche Annahmen. Wir betonen, dass der Schlüssel zur präzisen Vorhersage von Videobildern darin liegt, die zwischen den Frames auftretenden Variationen exakt zu erfassen, welche die Bewegung von Objekten sowie die Entwicklung der Umgebung umfassen. Darauf aufbauend präsentieren wir einen unüberwachten Vorhersageframework – die Variation Network (VarNet) –, die direkt die Variationen zwischen benachbarten Frames vorhersagt und diese anschließend mit dem aktuellen Frame fusioniert, um den zukünftigen Frame zu generieren. Zusätzlich schlagen wir eine adaptiv gewichtete Verlustfunktion vor, die jedem Pixel ein gerechtes Gewicht entsprechend der Amplitude seiner Variation zuweist. Umfassende Experimente zur kurz- und langfristigen Videovorhersage werden auf zwei anspruchsvollen Datensätzen – KTH und KITTI – mit zwei Evaluierungsmaßen – PSNR und SSIM – durchgeführt. Für den KTH-Datensatz übertrifft die VarNet die bisher besten Ansätze um bis zu 11,9 % in Bezug auf PSNR und um 9,5 % in Bezug auf SSIM. Für den KITTI-Datensatz erreichen wir Verbesserungen von bis zu 55,1 % in PSNR und 15,9 % in SSIM. Zudem bestätigen wir, dass die Generalisierungsfähigkeit unseres Modells gegenüber anderen state-of-the-art-Methoden übertrifft, indem wir es nach Training auf dem KITTI-Datensatz auf dem bisher unbekannten CalTech Pedestrian-Datensatz testen. Der Quellcode und Beispielvideos sind unter https://github.com/jinbeibei/VarNet verfügbar.