Gleichgewichtiger ID-OOD-Tradeoff-Transfer macht abfragbasierte Detektoren zu guten Few-Shot-Lernern
Fine-tuning ist ein verbreiteter Ansatz zur Lösung des Few-Shot Object Detection-Problems. In diesem Artikel versuchen wir, einen neuen Blickwinkel darauf einzunehmen. Wir formulieren die Few-Shot-Neuaufgaben als eine Art Verteilungsverschiebung gegenüber der wahren (ground-truth) Verteilung. Wir führen den Begriff der imaginären Platzhaltermasken ein, um zu zeigen, dass diese Verteilungsverschiebung im Wesentlichen eine Kombination aus In-Distribution (ID) und Out-of-Distribution (OOD) Verschiebungen darstellt. Unsere empirischen Ergebnisse zeigen, dass es entscheidend ist, das Gleichgewicht zwischen der Anpassung an die verfügbare Few-Shot-Verteilung und der Erhaltung der Robustheit gegenüber Verteilungsverschiebungen des vortrainierten Modells zu finden. Wir untersuchen Verbesserungen im Transfer beim Few-Shot Fine-Tuning in Few-Shot Object Detection (FSOD)-Szenarien aus drei Perspektiven. Erstens erforschen wir die LinearProbe-Finetuning-(LP-FT)-Technik, um dieses Gleichgewicht zu balancieren und das Problem der Merkmalsverzerrung zu mildern. Zweitens untersuchen wir die Wirksamkeit der Schutz-Einfrierungsstrategie für abfragbasierte Objektdetektoren, um deren OOD-Robustheit zu bewahren. Drittens versuchen wir, Ensembling-Methoden einzusetzen, um die Merkmalsverzerrung zu umgehen. Alle diese Techniken werden in einer integrierten Methode namens BIOT (Balanced ID-OOD Transfer) zusammengeführt. Die Evaluierungsergebnisse zeigen, dass unsere Methode einfach, dennoch effektiv und allgemein gültig ist, um das FSOD-Potenzial abfragbasierter Objektdetektoren voll auszuschöpfen. Sie übertrifft in vielen FSOD-Szenarien die derzeitige SOTA-Methode und verfügt über ein vielversprechendes Skalierungspotenzial.