FitVid: Überanpassung bei pixelgenauen Videovorhersagen

Ein Agent, der in der Lage ist, das nächste Ereignis vorherzusagen, kann durch Planung eine Vielzahl von Aufgaben ohne zusätzliche Trainingsphase bewältigen. Darüber hinaus kann ein solcher Agent die komplexen Dynamiken der realen Welt intern repräsentieren und somit eine Darstellung erlangen, die für eine Vielzahl von Aufgaben im Bereich der visuellen Wahrnehmung nützlich ist. Dies macht die Vorhersage zukünftiger Videobilder unter Bedingung des beobachteten Vergangenheitsverlaufs und potenzieller zukünftiger Aktionen zu einer interessanten, dennoch äußerst herausfordernden Aufgabe, trotz zahlreicher neuerer Fortschritte. Bestehende Modelle zur Videovorhersage haben auf einfachen, engen Benchmarks vielversprechende Ergebnisse erzielt, liefern jedoch qualitativ niedrige Vorhersagen auf realen Datensätzen mit komplexeren Dynamiken oder breiteren Domänen. Es häuft sich zunehmend Beweise dafür, dass Unteranpassung an die Trainingsdaten eine der primären Ursachen für die geringe Qualität der Vorhersagen ist. In diesem Paper argumentieren wir, dass die ineffiziente Nutzung der Parameter in aktuellen Videomodellen der Hauptgrund für diese Unteranpassung ist. Daher stellen wir eine neue Architektur namens FitVid vor, die auf gängigen Benchmarks eine starke Überanpassung ermöglicht, während sie gleichzeitig eine vergleichbare Anzahl an Parametern wie die derzeitigen State-of-the-Art-Modelle besitzt. Wir analysieren die Konsequenzen der Überanpassung und zeigen, wie diese unerwartete Ergebnisse hervorrufen kann, beispielsweise die Erzeugung hochwertiger Ausgaben durch Wiederholung der Trainingsdaten, und wie diese durch etablierte Bildaugmentierungstechniken gemildert werden kann. Infolge dessen übertrifft FitVid die derzeitigen State-of-the-Art-Modelle auf vier verschiedenen Benchmarks zur Videovorhersage und bei vier unterschiedlichen Metriken.