Klassenunabhängige Objekterkennung mit multimodalem Transformer

Was bildet ein Objekt? Dies ist eine lang anhaltende Frage im Bereich der Computer Vision. Um diesem Ziel näher zu kommen, wurden zahlreiche lernfreie und lernbasierte Ansätze entwickelt, um die Objekthaftigkeit zu bewerten. Allerdings skalieren diese Ansätze im Allgemeinen nicht gut auf neue Domänen und unbekannte Objekte. In dieser Arbeit plädieren wir dafür, dass bestehende Methoden ein von oben nach unten gerichtetes Supervisionsignal fehlt, das durch menschlich verständliche Semantik gesteuert wird. Zum ersten Mal in der Literatur zeigen wir, dass Multimodale Visionstransformer (MViT), die mit ausgerichteten Bild-Text-Paaren trainiert werden, diesen Abstand effektiv überbrücken können. Unsere umfangreichen Experimente in verschiedenen Domänen und mit neuen Objekten demonstrieren die Stand-des-Wissens-übereinstimmende Leistungsfähigkeit von MViTs zur Lokalisierung generischer Objekte in Bildern. Aufgrund der Beobachtung, dass existierende MViTs keine mehrskalige Merkmalsverarbeitung beinhalten und in der Regel längere Trainingszeiträume erfordern, entwickeln wir eine effiziente MViT-Architektur unter Verwendung von mehrskaligen deformierbaren Aufmerksamkeitsmechanismen und spätem visuellen-sprachlichen Fusion. Wir verdeutlichen die Bedeutung von MViT-Vorschlägen in einer Vielzahl von Anwendungen, darunter offene Objekterkennung, Erkennung hervorstechender und getarnter Objekte sowie überwachte und selbstüberwachte Erkennungsaufgaben. Darüber hinaus können MViTs Vorschläge anhand einer spezifischen sprachlichen Abfrage adaptiv generieren und bieten somit verbesserte Interaktionsmöglichkeiten. Code: \url{https://git.io/J1HPY}.