HyperAIHyperAI
il y a 11 jours

SegSort : Segmentations par tri discriminant de segments

Jyh-Jing Hwang, Stella X. Yu, Jianbo Shi, Maxwell D. Collins, Tien-Ju Yang, Xiao Zhang, Liang-Chieh Chen
SegSort : Segmentations par tri discriminant de segments
Résumé

Presque toutes les approches existantes d’apprentissage profond pour la segmentation sémantique traitent cette tâche comme un problème de classification par pixel. Pourtant, les êtres humains comprennent une scène non pas en termes de pixels, mais en la décomposant en groupes perceptuels et en structures qui constituent les briques fondamentales de la reconnaissance. Cela nous motive à proposer une approche d’apprentissage métrique end-to-end par pixel, qui imite ce processus. Dans notre méthode, la représentation visuelle optimale détermine la segmentation correcte à l’intérieur d’une image et associe les segments appartenant à la même classe sémantique à travers différentes images. Le problème central d’apprentissage visuel consiste donc à maximiser la similarité à l’intérieur des segments tout en minimisant la similarité entre eux. Une fois le modèle entraîné de cette manière, l’inférence est effectuée de manière cohérente en extrayant des embeddings par pixel puis en regroupant (clustering), la étiquette sémantique étant déterminée par vote majoritaire parmi les voisins les plus proches d’un ensemble annoté.En conséquence, nous présentons SegSort, la première tentative d’utilisation de l’apprentissage profond pour la segmentation sémantique non supervisée, atteignant 76 % de la performance de sa version supervisée. Lorsqu’une supervision est disponible, SegSort montre des améliorations constantes par rapport aux approches classiques fondées sur l’entraînement par softmax par pixel. En outre, notre méthode produit des frontières plus précises et des prédictions régionales plus cohérentes. La méthode proposée SegSort produit également un résultat interprétable, chaque choix d’étiquette pouvant être facilement compris à partir des segments les plus proches récupérés.

SegSort : Segmentations par tri discriminant de segments | Articles de recherche récents | HyperAI