vor 11 Tagen

Align and Distill: Vereinheitlichung und Verbesserung der domainspezifischen Objekterkennung

Justin Kay, Timm Haucke, Suzanne Stathatos, Siqi Deng, Erik Young, Pietro Perona, Sara Beery, Grant Van Horn

Abstract

Objektdetektoren erzielen oft schlechte Ergebnisse auf Daten, die sich von ihrem Trainingsdatensatz unterscheiden. Domain-adaptive Objektdetektionsmethoden (DAOD) haben kürzlich starke Ergebnisse bei der Bewältigung dieser Herausforderung gezeigt. Leider identifizieren wir systematische Probleme im Benchmarking, die frühere Ergebnisse in Frage stellen und einen Fortschritt erschweren: (a) Überbewertung der Leistung aufgrund schwacher Baselines, (b) Inkonsistente Implementierungspraktiken, die transparente Vergleiche zwischen Methoden verhindern, und (c) Mangel an Allgemeingültigkeit aufgrund veralteter Backbone-Architekturen sowie geringe Vielfalt in den Benchmarks. Wir beheben diese Probleme durch die Einführung von: (1) einem einheitlichen Benchmarking- und Implementierungsframework namens Align and Distill (ALDI), das den Vergleich von DAOD-Methoden ermöglicht und zukünftige Entwicklungen unterstützt, (2) einem fairen und modernen Trainings- und Evaluierungsprotokoll für DAOD, das die genannten Benchmarking-Pitfalls adressiert, (3) einem neuen DAOD-Benchmark-Datensatz, CFC-DAOD, der die Evaluation auf vielfältigen realen Datensätzen ermöglicht, sowie (4) einer neuen Methode, ALDI++, die durch ein erhebliches Maß an Leistungsvorsprung die bisher beste Ergebnisqualität erreicht. ALDI++ übertrifft die vorherige State-of-the-Art um +3,5 AP50 bei der Aufgabe Cityscapes zu Foggy Cityscapes, um +5,7 AP50 bei Sim10k zu Cityscapes (wo unsere Methode die einzige ist, die eine faire Baseline schlägt) und um +0,6 AP50 bei CFC Kenai zu Channel. ALDI und ALDI++ sind architekturunabhängig und etablieren eine neue State-of-the-Art sowohl für YOLO- als auch für DETR-basierte DAOD-Methoden, ohne zusätzliche Hyperparameter-Tuning zu erfordern. Unser Framework, der Datensatz sowie die neue State-of-the-Art-Methode bieten eine entscheidende Neuausrichtung für DAOD und legen eine solide Grundlage für zukünftige Forschung. Code und Daten sind verfügbar unter: https://github.com/justinkay/aldi und https://github.com/visipedia/caltech-fish-counting.