HyperAIHyperAI

Command Palette

Search for a command to run...

SIA-OVD: Forminvarianter Adapter zur Überbrückung der Lücke zwischen Bildregionen bei der Offenvokabular-Detektion

Zusammenfassung

Die Offenwörterbuch-Erkennung (OVD) zielt darauf ab, neue Objekte ohne instanzbasierte Annotationen zu erkennen, um die offene Welt der Objekterkennung kostengünstiger zu erreichen. Bestehende OVD-Methoden basieren hauptsächlich auf der leistungsstarken Offenwörterbuch-Bild-Text-Ausrichtungsfähigkeit von visuellen Sprachvortrainingsmodellen (VLM) wie CLIP. Allerdings wird CLIP an Bild-Text-Paaren trainiert und verfügt über keine Wahrnehmungsfähigkeit für lokale Bereiche innerhalb eines Bildes, was zu einer Diskrepanz zwischen den Bild- und Regionendarstellungen führt. Die direkte Verwendung von CLIP für OVD verursacht eine ungenaue Regionalklassifikation. Wir stellen fest, dass die Diskrepanz zwischen Bild und Region hauptsächlich durch die Verformung der Regionsmerkmalskarten während des Extraktionsprozesses für Bereiche von Interesse (RoI) entsteht. Um die ungenaue Regionalklassifikation in OVD zu mildern, schlagen wir einen neuen forminvarianten Adapter vor, den SIA-OVD (Shape-Invariant Adapter for Open-Vocabulary Detection), um die Lücke zwischen Bild und Region im OVD-Aufgabenbereich zu überbrücken. SIA-OVD lernt eine Reihe von Merkmalsadapters für Regionen mit verschiedenen Formen und entwickelt ein neues Adapterzuordnungsmechanismus, um den optimalen Adapter für jede Region auszuwählen. Die angepassten Regionaldarstellungen können besser mit den Textdarstellungen aligniert werden, die von CLIP gelernt wurden. Ausführliche Experimente zeigen, dass SIA-OVD die Klassifikationsgenauigkeit für Regionen effektiv verbessert, indem es die Lücke zwischen Bildern und Regionen aufgrund von Formverformungen behebt. SIA-OVD erzielt erhebliche Verbesserungen gegenüber repräsentativen Methoden auf dem COCO-OVD-Benchmark. Der Code ist unter https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp