Gemeinschaftsaufgaben-basiertes selbstüberwachtes Lernen für zeitliche Korrespondenz

Diese Arbeit stellt einen Ansatz zur selbstüberwachten Lernung zuverlässiger dichter Korrespondenzen aus Videos vor. Unser Lernverfahren integriert zwei eng miteinander verbundene Aufgaben: die Verfolgung großer Bildregionen sowie die Herstellung feinabgestimmter pixelgenauer Zuordnungen zwischen aufeinanderfolgenden Videoframes. Wir nutzen die Synergie beider Aufgaben durch eine gemeinsame Inter-Frame-Affinitätsmatrix, die gleichzeitig Übergänge zwischen Videoframes auf sowohl der Region- als auch der Pixel-Ebene modelliert. Während die Region-Ebene Lokalisierung dazu beiträgt, Unsicherheiten bei der feinabgestimmten Zuordnung zu verringern, indem die Suchregionen eingegrenzt werden; liefern feinabgestimmte Zuordnungen bottom-up Merkmale, die die Region-Ebene Lokalisierung unterstützen. Unser Verfahren erreicht eine bessere Leistung als die derzeit besten selbstüberwachten Methoden bei einer Vielzahl von visuellen Korrespondenzaufgaben, darunter die Propagation von Videoobjekten und Teilsegmentierungen, Keypoint-Verfolgung sowie Objektverfolgung. Selbst unsere selbstüberwachte Methode übertrifft die vollständig überwachte Affinitätsmerkmalsrepräsentation, die aus einem ResNet-18 stammt, der auf ImageNet vortrainiert wurde.