Verbesserung der Objekterkennung in Kunstbildern mithilfe von nur Stiltransfer

Trotz der jüngsten Fortschritte in der Objektdetektion mithilfe tiefer neuronaler Netzwerke haben diese Netzwerke weiterhin Schwierigkeiten, Objekte in Kunstbildern wie Gemälden und Zeichnungen zu erkennen. Dieses Problem wird als „cross depiction problem“ bezeichnet und hat teilweise seine Ursache darin, dass neuronale Netzwerke tendenziell die Textur eines Objekts gegenüber seiner Form bevorzugen. In diesem Artikel stellen wir einen Prozess zur Schulung neuronaler Netzwerke vor, um Objekte – speziell Menschen – in Kunstbildern zu lokalisieren, und evaluieren diesen Ansatz. Wir generieren eine große Datensammlung für die Schulung und Validierung, indem wir Bilder aus der COCO-Datensammlung mittels AdaIn-Stiltransfer modifizieren. Diese Datensammlung dient zur Feinabstimmung eines Faster R-CNN-Objektdetektionsnetzwerks, das anschließend auf der bestehenden People-Art-Testdatenbank evaluiert wird. Das Ergebnis ist eine erhebliche Verbesserung gegenüber dem Stand der Technik und ein neuer Ansatz zur Erstellung von Datensätzen, um neuronale Netzwerke zur Verarbeitung von Kunstbildern zu trainieren.