Objektbewusste Distillationspyramide für offene-Vokabular-Objektdetektion

Open-vocabulary-Objektdetektion zielt darauf ab, Objektdetektoren, die auf einer festen Menge von Objektkategorien trainiert wurden, die Fähigkeit zu verleihen, Objekte zu erkennen, die durch beliebige Textanfragen beschrieben werden. Bisherige Ansätze nutzen Knowledge Distillation, um Wissen aus vortrainierten Vision-and-Language-Modellen (PVLMs) zu extrahieren und es auf Detektoren zu übertragen. Aufgrund der nicht adaptiven Vorschlagsausschnittbildung und des Prozesses der Einzel-Level-Feature-Nachahmung leiden diese Methoden jedoch unter Informationsverlust bei der Wissensextraktion und ineffizienter Wissensübertragung. Um diese Einschränkungen zu überwinden, schlagen wir einen Object-Aware Distillation Pyramid (OADP)-Rahmen vor, bestehend aus einem Object-Aware Knowledge Extraction (OAKE)-Modul und einer Distillation Pyramid (DP)-Mechanismus. Beim Extrahieren von Objektwissen aus PVLMs transformiert das OAKE-Modul die Objektvorschläge adaptiv und verwendet eine objektbewusste Masken-Attention, um präzise und vollständige Objektinformationen zu gewinnen. Der DP-Mechanismus führt globale und blockweise Distillation ein, um eine umfassendere Wissensübertragung zu ermöglichen und die fehlenden Beziehungsinformationen bei der Objekt-Distillation auszugleichen. Ausführliche Experimente zeigen, dass unsere Methode im Vergleich zu aktuellen Ansätzen erhebliche Verbesserungen erzielt. Insbesondere auf dem MS-COCO-Datensatz erreicht unser OADP-Rahmen eine mAP$^{\text{N}}{50}$ von 35,6, wodurch die derzeit beste Methode um 3,3 mAP$^{\text{N}}{50}$ übertroffen wird. Der Quellcode ist unter https://github.com/LutingWang/OADP verfügbar.