Lernen von Datenverstärkungsstrategien für die Objekterkennung

Datenverstärkung ist eine wesentliche Komponente beim Training von tiefen Lernmodellen. Obwohl Datenverstärkung erheblich zur Verbesserung der Bildklassifizierung beigetragen hat, wurde ihr Potenzial für die Objekterkennung noch nicht ausreichend untersucht. Angesichts der zusätzlichen Kosten für die Annotation von Bildern für die Objekterkennung könnte Datenverstärkung für diese Aufgabe im Bereich der Computer Vision von noch größerer Bedeutung sein. In dieser Arbeit untersuchen wir den Einfluss von Datenverstärkung auf die Objekterkennung. Wir zeigen zunächst, dass Verstärkungsoperationen, die aus der Bildklassifizierung übernommen wurden, bei der Ausbildung von Erkennungsmodellen hilfreich sein können, aber die Verbesserungen begrenzt sind. Daher untersuchen wir, wie gelernte, spezialisierte Datenverstärkungsstrategien die Generalisierungsleistung von Erkennungsmodellen verbessern. Wichtig ist dabei, dass diese Verstärkungsstrategien nur das Training betreffen und ein trainiertes Modell während der Evaluierung unverändert lassen. Experimente mit dem COCO-Datensatz deuten darauf hin, dass eine optimierte Datenverstärkungsstrategie die Erkennungspräzision um mehr als +2,3 mAP (mean Average Precision) erhöht und es einem einzelnen Inferenzmodell ermöglicht, einen Stand-der-Technik-Wert von 50,7 mAP zu erreichen. Besonders wichtig ist auch, dass die beste Strategie, die auf COCO gefunden wurde, unverändert auf andere Erkennungsdatensätze und -modelle übertragen werden kann, um die Vorhersagegenauigkeit zu verbessern. Zum Beispiel erhöht die beste Verstärkungsstrategie, die mit COCO identifiziert wurde, eine starke Baseline auf PASCAL-VOC um +2,7 mAP. Unsere Ergebnisse zeigen zudem, dass eine gelernte Verstärkungsstrategie den modernsten Architekturregularisierungsmethoden für Objekterkennung überlegen ist – selbst wenn man starke Baselines berücksichtigt. Der Code zum Training mit der gelernten Strategie steht online unter https://github.com/tensorflow/tpu/tree/master/models/official/detection zur Verfügung.