Embedding Associatif : Apprentissage de la Détection et du Groupement en une Seule Étape

Nous présentons l'embedding associatif, une nouvelle méthode de supervision des réseaux neuronaux convolutifs pour la tâche de détection et de regroupement. Plusieurs problèmes en vision par ordinateur peuvent être formulés de cette manière, notamment l'estimation de la posture multi-personne, le segmention d'instances et le suivi multi-objet. Généralement, le regroupement des détections est réalisé à travers des pipelines multistades ; nous proposons en revanche une approche qui enseigne au réseau à produire simultanément les détections et les affectations de groupe. Cette technique peut être facilement intégrée dans toute architecture de réseau de pointe générant des prédictions pixel par pixel. Nous montrons comment appliquer cette méthode à l'estimation de la posture multi-personne et au segmention d'instances, et nous rapportons des performances de pointe pour l'estimation de la posture multi-personne sur les jeux de données MPII et MS-COCO.