Command Palette
Search for a command to run...
Segmentation d'instances de robots avec peu d'annotations pour la saisie
Segmentation d'instances de robots avec peu d'annotations pour la saisie
Moshe Kimhi David Vainshtein Chaim Baskin Dotan Di Castro
Résumé
La capacité des robots à manipuler des objets repose fortement sur leur aptitude à la perception visuelle. Dans des domaines marqués par des scènes encombrées et une grande variabilité d’objets, la plupart des méthodes nécessitent des jeux de données étiquetés volumineux, soigneusement annotés à la main, afin d’entraîner des modèles performants. Une fois déployés, les modèles doivent faire face au défi de généraliser à des objets inconnus, ce qui implique qu’ils doivent évoluer en parallèle avec leur environnement. Pour répondre à ce défi, nous proposons un cadre novateur combinant l’Apprentissage Semi-supervisé (SSL) et l’Apprentissage par Interaction (LTI), permettant à un modèle d’apprendre en observant les modifications dans la scène et d’exploiter la cohérence visuelle malgré des intervalles temporels, sans nécessiter de données soigneusement préparées d’enchaînements d’interactions. En conséquence, notre approche exploite efficacement des données partiellement annotées grâce à une auto-supervision, tout en intégrant un contexte temporel à l’aide de pseudo-séquences générées à partir d’images fixes non étiquetées. Nous validons notre méthode sur deux benchmarks courants, ARMBench mix-object-tote et OCID, où elle atteint des performances de pointe. Notamment, sur ARMBench, nous obtenons un score AP50 de 86,37, soit une amélioration d’environ 20% par rapport aux travaux existants, et des résultats remarquables dans des scénarios à très faible taux d’annotation, avec un AP50 de 84,89 en utilisant seulement 1% des données annotées, contre 72 dans le cas entièrement annoté du benchmark ARMBench.