Lernen von Video-Darstellungen aus Korrespondenzvorschlägen

Korrespondenzen zwischen Bildern kodieren reichhaltige Informationen über dynamische Inhalte in Videos. Allerdings ist es aufgrund ihrer unregelmäßigen Struktur und komplexen Dynamik herausfordernd, diese effektiv zu erfassen und zu lernen. In dieser Arbeit schlagen wir ein neues neuronales Netzwerk vor, das durch Aggregation von Informationen aus potenziellen Korrespondenzen Videodarstellungen lernt. Dieses Netzwerk, genannt $CPNet$, kann sich entwickelnde 2D-Felder mit zeitlicher Konsistenz erlernen. Insbesondere kann es durch die Kombination von Erscheinungsbild und langreichweitiger Bewegung bei einer reinen RGB-Eingabe effektive Darstellungen für Videos erlernen. Wir führen umfangreiche Abstraktionsversuche durch, um unser Modell zu validieren. CPNet zeigt eine stärkere Leistung als bestehende Methoden auf Kinetics und erreicht den Stand der Technik auf Something-Something und Jester. Wir analysieren das Verhalten unseres Modells und zeigen seine Robustheit gegenüber Fehlern in den Vorschlägen.