HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-modale abgefragte Objekterkennung in der Wildbahn

Yifan Xu Zhenhao Yang Jianwei Yang Jianwei Yang

Zusammenfassung

Wir stellen MQ-Det vor, eine effiziente Architektur und Vortrainingsstrategie, die sowohl textuelle Beschreibungen mit Offen-Set-Generalisierung als auch visuelle Exemplare mit reichhaltiger Beschreibungsdetailgenauigkeit als Kategorieabfragen nutzt. Dies wird als multimodale abgefragte Objekterkennung (Multi-modal Queried object Detection) bezeichnet, die für die Realwelt-Erkennung sowohl offener Wortschatz-Kategorien als auch verschiedener Detailgenauigkeiten geeignet ist. MQ-Det integriert visuelle Abfragen in bestehende, etablierte Detektoren, die bisher nur auf sprachliche Abfragen ausgerichtet waren. Ein einsteckbares, klassenskalierbares Perceiver-Modul über dem gefrorenen Detektor wurde vorgeschlagen, um kategoriebezogene Textinformationen durch klassenspezifische visuelle Informationen zu erweitern. Um das Lernträgeproblem des gefrorenen Detektors zu bewältigen, wurde eine strategie der maskebasierten Sprachvorhersage unter Berücksichtigung visueller Bedingungen entwickelt. Die einfache und dennoch effektive Architektur sowie das Trainingsstrategie-Design von MQ-Det sind mit den meisten sprachbasierten Objektdetektoren kompatibel und ermöglichen vielfältige Anwendungen. Experimentelle Ergebnisse zeigen, dass multimodale Abfragen die Erkennung in der offenen Welt stark verbessern. Zum Beispiel verbessert MQ-Det den aktuellen besten Offen-Set-Detektor GLIP um +7,8 % AP auf dem LVIS-Benchmark durch multimodale Abfragen ohne jede nachgeschaltete Feinabstimmung und im Durchschnitt um +6,3 % AP bei 13 Downstream-Aufgaben mit wenigen Beispielen, wobei lediglich zusätzliche 3 % Modulationszeit erforderlich sind, die GLIP benötigt. Der Code ist unter https://github.com/YifanXu74/MQ-Det verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp