Segmentation d'instances de robots avec peu d'annotations pour la saisie

La capacité des robots à manipuler des objets repose fortement sur leur aptitude à la perception visuelle. Dans des domaines marqués par des scènes encombrées et une grande variabilité d’objets, la plupart des méthodes nécessitent des jeux de données étiquetés volumineux, soigneusement annotés à la main, afin d’entraîner des modèles performants. Une fois déployés, les modèles doivent faire face au défi de généraliser à des objets inconnus, ce qui implique qu’ils doivent évoluer en parallèle avec leur environnement. Pour répondre à ce défi, nous proposons un cadre novateur combinant l’Apprentissage Semi-supervisé (SSL) et l’Apprentissage par Interaction (LTI), permettant à un modèle d’apprendre en observant les modifications dans la scène et d’exploiter la cohérence visuelle malgré des intervalles temporels, sans nécessiter de données soigneusement préparées d’enchaînements d’interactions. En conséquence, notre approche exploite efficacement des données partiellement annotées grâce à une auto-supervision, tout en intégrant un contexte temporel à l’aide de pseudo-séquences générées à partir d’images fixes non étiquetées. Nous validons notre méthode sur deux benchmarks courants, ARMBench mix-object-tote et OCID, où elle atteint des performances de pointe. Notamment, sur ARMBench, nous obtenons un score $\text{AP}{50}$ de $86,37$, soit une amélioration d’environ $20\%$ par rapport aux travaux existants, et des résultats remarquables dans des scénarios à très faible taux d’annotation, avec un $\text{AP}{50}$ de $84,89$ en utilisant seulement $1\%$ des données annotées, contre $72$ dans le cas entièrement annoté du benchmark ARMBench.