HyperAIHyperAI
vor 2 Monaten

Kreuzdomänen Few-Shot Objekterkennung durch erweiterten Offen-Satz-Objekterkennungsdetektor

Fu, Yuqian ; Wang, Yu ; Pan, Yixuan ; Huai, Lian ; Qiu, Xingyu ; Shangguan, Zeyu ; Liu, Tong ; Fu, Yanwei ; Van Gool, Luc ; Jiang, Xingqun
Kreuzdomänen Few-Shot Objekterkennung durch erweiterten Offen-Satz-Objekterkennungsdetektor
Abstract

Dieses Papier untersucht die herausfordernde Aufgabe des cross-domain few-shot Objekterkennung (CD-FSOD), mit dem Ziel, einen genauen Objekterkennungsdetektor für neue Domänen zu entwickeln, der nur wenige annotierte Beispiele benötigt. Obwohl transformerbasierte offene Erkennungsmodelle wie DE-ViT in traditionellen few-shot Objekterkennungsaufgaben vielversprechende Ergebnisse zeigen, bleibt ihre Generalisierungsfähigkeit auf CD-FSOD unklar: 1) Können solche offene Erkennungsverfahren sich leicht auf CD-FSOD übertragen? 2) Wenn nicht, wie können Modelle bei großen Domänenunterschieden verbessert werden? Um die erste Frage zu beantworten, verwenden wir Maßnahmen wie Stil, interklassische Varianz (ICV) und undefinierbare Grenzen (IB), um den Domänenunterschied zu verstehen. Basierend auf diesen Maßnahmen erstellen wir eine neue Benchmark namens CD-FSOD, um Objekterkennungsverfahren zu evaluieren. Diese Evaluation zeigt, dass die meisten aktuellen Ansätze nicht in der Lage sind, sich über verschiedene Domänen hinweg zu generalisieren. Technisch beobachten wir, dass das Leistungsabfall mit unseren vorgeschlagenen Maßnahmen – Stil, ICV und IB – zusammenhängt. Folglich schlagen wir mehrere innovative Module vor, um diese Probleme anzugehen. Erstens alignen lernfähige Instanzmerkmale die anfänglichen festen Instanzen mit den Zielkategorien und verbessern so die Merkmalsunterscheidbarkeit. Zweitens weist das Instanzneugewichtungsmodul hochwertigen Instanzen mit geringem IB eine höhere Bedeutung zu. Drittens ermutigt der Domänenprompter durch die Synthese fiktiver Domänen ohne Veränderung semantischer Inhalte Merkmale, die robust gegenüber verschiedenen Stilen sind. Diese Techniken tragen gemeinsam zur Entwicklung des Cross-Domain Vision Transformers für CD-FSOD (CD-ViTO) bei und verbessern signifikant das Basismodell DE-ViT. Experimentelle Ergebnisse bestätigen die Effektivität unseres Modells.