Objektlokalisation mit selbstüberwachten Transformatoren und ohne Labels

Die lokalisierte Objekterkennung in Bildsammlungen ohne Aufsicht kann helfen, teure Annotationsschwierigkeiten zu vermeiden. Wir schlagen einen einfachen Ansatz für dieses Problem vor, der die Aktivierungseigenschaften eines Vision Transformers nutzt, der auf selbstüberwachte Weise vortrainiert wurde. Unsere Methode, LOST (Localized Objects from Self-supervised Transformers), erfordert weder externe Objektvorschläge noch eine Exploration der Bildsammlung; sie arbeitet auf einem einzelnen Bild. Trotzdem übertreffen wir die besten bisher bekannten Methoden zur Objekterkennung um bis zu 8 CorLoc-Punkte auf dem PASCAL VOC 2012-Datensatz. Darüber hinaus zeigen wir, dass das Training eines klassenunabhängigen Detektors anhand der entdeckten Objekte die Ergebnisse um weitere 7 Punkte verbessert. Zudem präsentieren wir vielversprechende Ergebnisse bei der unlöblichen Objekterkennungsaufgabe. Der Code zur Reproduktion unserer Ergebnisse ist unter https://github.com/valeoai/LOST zu finden.