EM-gesteuertes unüberwachtes Lernen für effiziente Bewegungssegmentierung

In dieser Arbeit stellen wir eine vollständig unüberwachte Methode zur Bewegungstrennung auf der Grundlage von optischen Flussdaten vor, die auf einem Convolutional Neural Network (CNN) basiert. Wir gehen davon aus, dass der Eingabeoptische Fluss als stückweise Menge parametrischer Bewegungsmodelle dargestellt werden kann, typischerweise affine oder quadratische Bewegungsmodelle. Das zentrale Konzept unserer Arbeit besteht darin, das Expectation-Maximization (EM)-Framework zu nutzen, um eine fundierte Verlustfunktion und ein Trainingsverfahren für unser Bewegungstrennungs-Neuronales Netzwerk zu entwickeln, das weder Ground-Truth-Daten noch manuelle Annotationen erfordert. Im Gegensatz zum klassischen iterativen EM können wir nach dem Training des Netzes die Trennung für jedes unbekannte optische Flussfeld in einem einzigen Inferenzschritt durchführen, ohne irgendeine Bewegungsmodelle zu schätzen. Wir untersuchen verschiedene Verlustfunktionen, einschließlich robuster Funktionen, und schlagen eine neue effiziente Datenverstärkungstechnik für das optische Flussfeld vor, die für jedes Netzwerk anwendbar ist, das optischen Fluss als Eingabe verwendet. Zudem ist unsere Methode per Konstruktion in der Lage, mehrere Bewegungen zu trennen. Unser Bewegungstrennungs-Netzwerk wurde anhand von vier Benchmarks getestet: DAVIS2016, SegTrackV2, FBMS59 und MoCA. Es zeigte sehr gute Ergebnisse und war gleichzeitig bei den Tests sehr schnell.