vor 2 Monaten

Diskriminatives Auswählen von Vorschlägen in selbstüberwachten Transformatoren für schwach überwachte Objektlokalisation

Shakeeb Murtaza; Soufiane Belharbi; Marco Pedersoli; Aydin Sarraf; Eric Granger

Abstract

Drohnen werden in einer wachsenden Anzahl von visuellen Erkennungsanwendungen eingesetzt. Eine jüngste Entwicklung im Bereich der Inspektion von Mobilfunkantennenmasten ist die dronengestützte Überwachung von Vermögensgütern, bei der die autonome Flugroute einer Drohne durch die Lokalisierung von Objekten des Interesses in aufeinanderfolgenden Luftbildern gesteuert wird. In dieser Arbeit schlagen wir eine Methode vor, um tiefgreifende schwach überwachte Objektlokalisierungsmodelle (WSOL) ausschließlich anhand von Bildklassenbezeichnungen zu trainieren, um Objekte mit hoher Zuverlässigkeit zu lokalisieren. Um unseren Lokalisiator zu trainieren, werden Pseudobeschriftungen effizient aus selbstüberwachten Visionstransformern (SSTs) gewonnen. Da SSTs jedoch die Szene in mehrere Karten mit verschiedenen Objektteilen zerlegen und auf kein explizites Supervisionsignal zurückgreifen, können sie das Objekt des Interesses nicht von anderen Objekten unterscheiden, wie es für WSOL erforderlich ist. Um dieses Problem zu lösen, schlagen wir vor, die verschiedenen Karten, die durch die unterschiedlichen Transformer-Heads generiert werden, zu nutzen, um Pseudobeschriftungen für das Training eines tiefgreifenden WSOL-Modells zu erlangen. Insbesondere wird eine neue Methode zur diskriminativen Vorschlagsauswahl (Discriminative Proposals Sampling (DiPS)) eingeführt, die auf einem CNN-Klassifikator basiert, um diskriminative Bereiche zu identifizieren. Anschließend werden Vordergrund- und Hintergrundpixel aus diesen Bereichen abgetastet, um ein WSOL-Modell zu trainieren, das Aktivierungskarten erzeugt, die Objekte einer bestimmten Klasse genau lokalisieren können. Empirische Ergebnisse am anspruchsvollen TelDrone-Datensatz zeigen, dass unser vorgeschlagener Ansatz über einen breiten Bereich von Schwellenwerten für die erzeugten Karten den Stand der Technik übertreffen kann. Wir haben auch Ergebnisse am CUB-Datensatz berechnet, die belegen, dass unsere Methode für andere Aufgaben angepasst werden kann.