TOOD: Task-alignierte One-stage Objektdetektion

Einphasige Objektdetektion wird üblicherweise durch die Optimierung zweier Teilaufgaben – Objektklassifikation und Lokalisierung – mittels Köpfe mit zwei parallelen Zweigen realisiert, was zu einer gewissen räumlichen Ungenauigkeit in den Vorhersagen zwischen den beiden Aufgaben führen kann. In dieser Arbeit stellen wir einen Task-aligned One-stage Object Detection (TOOD) vor, der die beiden Aufgaben auf lernbasierte Weise explizit ausrichtet. Zunächst entwerfen wir einen neuartigen Task-aligned Head (T-Head), der eine bessere Balance zwischen der Lernung von task-interactive und task-spezifischen Merkmalen ermöglicht sowie eine größere Flexibilität bietet, die Ausrichtung über einen task-alignierten Predictor zu erlernen. Zweitens schlagen wir Task Alignment Learning (TAL) vor, das die optimalen Anchor-Regionen für die beiden Aufgaben während des Trainings explizit näher zusammenzieht (oder sogar vereint), mithilfe eines speziell entworfenen Zuweisungsverfahrens und einer task-alignierten Verlustfunktion. Umfangreiche Experimente werden auf MS-COCO durchgeführt, wobei TOOD bei Einzelmodell-Einzelmaßstab-Tests eine AP von 51,1 erreicht. Damit übertrifft TOOD neuere einphasige Detektoren deutlich, wie ATSS (47,7 AP), GFL (48,2 AP) und PAA (49,0 AP), bei geringerem Parameter- und FLOPs-Aufwand. Qualitative Ergebnisse belegen zudem die Wirksamkeit von TOOD zur verbesserten Ausrichtung der Aufgaben Objektklassifikation und Lokalisierung. Der Quellcode ist unter https://github.com/fcjian/TOOD verfügbar.