il y a 2 mois
Segmentation non supervisée de plusieurs objets à l'aide de l'attention et de la fonction soft-argmax
Bruno Sauvalle; Arnaud de La Fortelle

Résumé
Nous présentons une nouvelle architecture pour l'apprentissage non supervisé de représentations centrées sur les objets et la détection et le segmention multi-objets, qui utilise un mécanisme d'attention équivariant à la translation pour prédire les coordonnées des objets présents dans la scène et associer un vecteur de caractéristiques à chaque objet. Un encodeur de transformer gère les occultations et les détections redondantes, tandis qu'un autoencodeur convolutif est chargé de la reconstruction du fond. Nous montrons que cette architecture surpasse significativement l'état de l'art sur des benchmarks synthétiques complexes.