Multigitter-Vorhersagefilterfluss für das unüberwachte Lernen in Videos

Wir stellen mgPFF (multigrid Predictive Filter Flow) vor, ein Framework für das unüberwachte Lernen auf Videos. Das mgPFF nimmt als Eingabe ein Paar von Bildern und gibt pro Pixel Filter aus, um eine Bildsequenz in die andere zu verwandeln. Im Vergleich zum optischen Fluss, der zur Verformung von Bildsequenzen verwendet wird, ist mgPFF leistungsfähiger bei der Modellierung von Unterpixelbewegungen und dem Umgang mit Korruption (z.B. Bewegungsunschärfe). Wir entwickeln eine Mehrgitterstrategie von grob zu fein, die das Lernen großer Filter zur Erfassung großer Verschiebungen vermeidet. Dies ermöglicht es uns, ein extrem kompaktes Modell (4,6 MB) zu trainieren, das auf mehreren Auflösungen fortschreitend mit geteilten Gewichten arbeitet. Wir trainieren mgPFF auf unüberwachten, freiformigen Videos und zeigen, dass mgPFF nicht nur in der Lage ist, den langen Fluss für die Rekonstruktion von Bildsequenzen zu schätzen und Video-Schnittübergänge zu erkennen, sondern auch leicht anpassbar ist für die Segmentierung von Videoobjekten und Pose-Tracking. Hierbei übertrifft es erheblich den aktuellen Stand der Technik ohne zusätzliche Verbesserungen. Darüber hinaus bietet uns die Natur des pro-Pixel-Filtervorhersages von mgPFF die einzigartige Möglichkeit, zu visualisieren, wie jeder Pixel während der Lösung dieser Aufgaben evolviert, wodurch wir eine bessere Interpretierbarkeit erzielen.