MAST: Ein speichergestützter selbstüberwachter Verfolgungsalgorithmus

In jüngster Zeit hat das Interesse an selbstüberwachten dichten Verfolgungsmethoden rasche Fortschritte hervorgerufen, dennoch bleibt die Leistung weiterhin deutlich hinter den überwachten Ansätzen zurück. In diesem Beitrag stellen wir ein dichtes Verfolgungsmodell vor, das auf Videos ohne jegliche Annotationen trainiert wurde und die bisherigen selbstüberwachten Methoden auf etablierten Benchmarks um ein signifikantes Plus von +15 % übertrifft sowie eine Leistung erreicht, die mit überwachten Methoden vergleichbar ist. In dieser Arbeit überprüfen wir zunächst die klassischen Wahlkriterien für das selbstüberwachte Training und die Rekonstruktionsverlustfunktion durch umfassende Experimente, wodurch wir schließlich die optimalen Konfigurationen identifizieren können. Zweitens verbessern wir bestehende Ansätze, indem wir unsere Architektur durch eine entscheidende Speicherkomponente erweitern. Drittens führen wir Benchmark-Tests auf großskaligen semi-überwachten Datensätzen zur Videoobjektsegmentierung (auch dichte Verfolgung genannt) durch und schlagen ein neues Bewertungsmetriks vor: Generalisierbarkeit. Unsere ersten beiden Beiträge ergeben ein selbstüberwachtes Netzwerk, das erstmals auf den Standardbewertungsmetriken der dichten Verfolgung mit überwachten Methoden konkurrieren kann. Bei der Messung der Generalisierbarkeit zeigen wir, dass selbstüberwachte Ansätze tatsächlich der Mehrheit der überwachten Methoden überlegen sind. Wir sind überzeugt, dass diese neue Metrik die praktischen Anwendungsfälle für dichte Verfolgung besser abbildet und neue Impulse für die Forschung in dieser Richtung setzen wird.