CrOC: Cross-View Online Clustering für dichte visuelle Repräsentationenlernen

Das Lernen dichter visueller Repräsentationen ohne Labels ist eine mühsame Aufgabe und noch schwieriger bei daten, die sich auf Szenen konzentrieren. Wir schlagen vor, dieses herausfordernde Problem durch die Einführung eines Queransichts-Konsistenzziels mit einem Online-Clustering-Mechanismus (CrOC) anzugehen, um die Semantik der Ansichten zu entdecken und zu segmentieren. Ohne manuell erstellte Priorisierungen ist das resultierende Verfahren allgemeiner anwendbar und erfordert keinen aufwändigen Vorverarbeitungsschritt. Von größerer Bedeutung ist jedoch, dass der Clustering-Algorithmus gleichzeitig auf den Merkmalen beider Ansichten operiert, wodurch das Problem von Inhalten, die nicht in beiden Ansichten vertreten sind, sowie die unsichere Zuordnung von Objekten zwischen den Ausschnitten elegant umgangen wird. Wir zeigen ausgezeichnete Ergebnisse bei linearen und unüberwachten Segmentierungstransferaufgaben auf verschiedenen Datensätzen sowie vergleichbare Leistungen bei der Segmentierung von Videoobjekten. Unser Code und unsere vortrainierten Modelle sind öffentlich verfügbar unter https://github.com/stegmuel/CrOC.