Détection de personnes dans les œuvres d'art avec des CNNs

Les réseaux de neurones convolutifs (CNNs) ont considérablement amélioré les performances en détection d'objets dans les photographies. Cependant, les recherches sur la détection d'objets dans l'art restent limitées. Nous présentons des performances de pointe sur un ensemble de données complexe, People-Art, qui contient des personnes issues de photographies, de dessins animés et de 41 mouvements artistiques différents. Nous atteignons ces performances élevées en affinant un CNN pour cette tâche, ce qui démontre également que l'entraînement des CNNs sur des photographies entraîne un surapprentissage pour les photos : seules les trois ou quatre premières couches se transposent des photographies à l'art. Bien que les performances du CNN soient les meilleures obtenues jusqu'à présent, elles demeurent inférieures à 60 % d'AP (Average Precision), suggérant qu'un travail supplémentaire est nécessaire pour résoudre le problème de la transposition entre différents types de représentation. La publication finale est disponible chez Springer via http://dx.doi.org/10.1007/978-3-319-46604-0_57.