Multi-modale abgefragte Objekterkennung in der Wildbahn

Wir stellen MQ-Det vor, eine effiziente Architektur und Vortrainingsstrategie, die sowohl textuelle Beschreibungen mit Offen-Set-Generalisierung als auch visuelle Exemplare mit reichhaltiger Beschreibungsdetailgenauigkeit als Kategorieabfragen nutzt. Dies wird als multimodale abgefragte Objekterkennung (Multi-modal Queried object Detection) bezeichnet, die für die Realwelt-Erkennung sowohl offener Wortschatz-Kategorien als auch verschiedener Detailgenauigkeiten geeignet ist. MQ-Det integriert visuelle Abfragen in bestehende, etablierte Detektoren, die bisher nur auf sprachliche Abfragen ausgerichtet waren. Ein einsteckbares, klassenskalierbares Perceiver-Modul über dem gefrorenen Detektor wurde vorgeschlagen, um kategoriebezogene Textinformationen durch klassenspezifische visuelle Informationen zu erweitern. Um das Lernträgeproblem des gefrorenen Detektors zu bewältigen, wurde eine strategie der maskebasierten Sprachvorhersage unter Berücksichtigung visueller Bedingungen entwickelt. Die einfache und dennoch effektive Architektur sowie das Trainingsstrategie-Design von MQ-Det sind mit den meisten sprachbasierten Objektdetektoren kompatibel und ermöglichen vielfältige Anwendungen. Experimentelle Ergebnisse zeigen, dass multimodale Abfragen die Erkennung in der offenen Welt stark verbessern. Zum Beispiel verbessert MQ-Det den aktuellen besten Offen-Set-Detektor GLIP um +7,8 % AP auf dem LVIS-Benchmark durch multimodale Abfragen ohne jede nachgeschaltete Feinabstimmung und im Durchschnitt um +6,3 % AP bei 13 Downstream-Aufgaben mit wenigen Beispielen, wobei lediglich zusätzliche 3 % Modulationszeit erforderlich sind, die GLIP benötigt. Der Code ist unter https://github.com/YifanXu74/MQ-Det verfügbar.