HyperAIHyperAI
vor 2 Monaten

Look-into-Object: Selbstüberwachte Strukturmodellierung für Objekterkennung

Zhou, Mohan ; Bai, Yalong ; Zhang, Wei ; Zhao, Tiejun ; Mei, Tao
Abstract

Die meisten Ansätze zur Objekterkennung konzentrieren sich hauptsächlich auf das Lernen diskriminativer visueller Muster, während sie die holistische Objektstruktur vernachlässigen. Obwohl die Strukturbildung wichtig ist, erfordert sie in der Regel erhebliche manuelle Annotationen und ist daher arbeitsintensiv. In dieser Arbeit schlagen wir vor, den „Blick ins Objekt“ (explizit und intrinsisch die Objektstruktur zu modellieren) durch die Einbeziehung von Selbstüberwachungen in das traditionelle Framework zu ermöglichen. Wir zeigen, dass der Erkennungsbackbone durch diese Methode erheblich verbessert werden kann, um eine robusteres Repräsentationslernen zu ermöglichen, ohne zusätzliche Annotationen oder Verzögerungen bei der Inferenzgeschwindigkeit zu verursachen.Speziell schlagen wir zunächst ein Modul für das Lernen des Objektumfangs vor, das dazu dient, das Objekt basierend auf den visuellen Mustern zu lokalisieren, die unter Instanzen der gleichen Kategorie geteilt werden. Anschließend entwickeln wir ein Modul für das Lernen des räumlichen Kontexts, um die internen Strukturen des Objekts durch die Vorhersage relativer Positionen innerhalb des Umfangs zu modellieren. Diese beiden Module können während des Trainings leicht in beliebige Backbone-Netze integriert und bei der Inferenz wieder entfernt werden.Ausführliche Experimente zeigen, dass unser Ansatz „Blick ins Objekt“ (Look Into Object, LIO) auf einer Reihe von Benchmarks erhebliche Leistungsverbesserungen erzielt, darunter generische Objekterkennungsaufgaben (ImageNet) und feingranulierte Objekterkennungsaufgaben (CUB, Autos, Flugzeuge). Wir demonstrieren außerdem, dass dieses Lernparadigma hochgradig übertragbar auf andere Aufgaben wie Objektdetektion und -segmentierung (MS COCO) ist. Projektseite: https://github.com/JDAI-CV/LIO.