SIA-OVD: Forminvarianter Adapter zur Überbrückung der Lücke zwischen Bildregionen bei der Offenvokabular-Detektion

Die Offenwörterbuch-Erkennung (OVD) zielt darauf ab, neue Objekte ohne instanzbasierte Annotationen zu erkennen, um die offene Welt der Objekterkennung kostengünstiger zu erreichen. Bestehende OVD-Methoden basieren hauptsächlich auf der leistungsstarken Offenwörterbuch-Bild-Text-Ausrichtungsfähigkeit von visuellen Sprachvortrainingsmodellen (VLM) wie CLIP. Allerdings wird CLIP an Bild-Text-Paaren trainiert und verfügt über keine Wahrnehmungsfähigkeit für lokale Bereiche innerhalb eines Bildes, was zu einer Diskrepanz zwischen den Bild- und Regionendarstellungen führt. Die direkte Verwendung von CLIP für OVD verursacht eine ungenaue Regionalklassifikation. Wir stellen fest, dass die Diskrepanz zwischen Bild und Region hauptsächlich durch die Verformung der Regionsmerkmalskarten während des Extraktionsprozesses für Bereiche von Interesse (RoI) entsteht. Um die ungenaue Regionalklassifikation in OVD zu mildern, schlagen wir einen neuen forminvarianten Adapter vor, den SIA-OVD (Shape-Invariant Adapter for Open-Vocabulary Detection), um die Lücke zwischen Bild und Region im OVD-Aufgabenbereich zu überbrücken. SIA-OVD lernt eine Reihe von Merkmalsadapters für Regionen mit verschiedenen Formen und entwickelt ein neues Adapterzuordnungsmechanismus, um den optimalen Adapter für jede Region auszuwählen. Die angepassten Regionaldarstellungen können besser mit den Textdarstellungen aligniert werden, die von CLIP gelernt wurden. Ausführliche Experimente zeigen, dass SIA-OVD die Klassifikationsgenauigkeit für Regionen effektiv verbessert, indem es die Lücke zwischen Bildern und Regionen aufgrund von Formverformungen behebt. SIA-OVD erzielt erhebliche Verbesserungen gegenüber repräsentativen Methoden auf dem COCO-OVD-Benchmark. Der Code ist unter https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024 verfügbar.