Robotergestützte Instanzsegmentierung mit wenigen Annotationen für das Greifen

Die Fähigkeit von Robotern, Objekte zu manipulieren, beruht stark auf ihrer Leistungsfähigkeit im Bereich der visuellen Wahrnehmung. In Szenen mit hoher Unordnung und großer Objektvielfalt erfordern die meisten Methoden umfangreiche, handschriftlich annotierte Datensätze, um leistungsfähige Modelle zu trainieren. Sobald diese eingesetzt werden, stellt die Fähigkeit, sich auf unbekannte Objekte zu verallgemeinern, die Herausforderung dar, dass das Modell sich gemeinsam mit seiner Domäne weiterentwickeln muss. Um diesem Problem zu begegnen, schlagen wir einen neuen Ansatz vor, der Semi-Supervised Learning (SSL) mit Learning Through Interaction (LTI) kombiniert. Dadurch kann ein Modell lernen, indem es Veränderungen in der Szene beobachtet, und visuelle Konsistenz trotz zeitlicher Lücken ausnutzen, ohne dass vorher kuratierte Daten zu Interaktionssequenzen erforderlich sind. Unser Ansatz nutzt teilweise annotierte Daten durch Selbstüberwachung und integriert zeitliche Kontextinformationen mithilfe von Pseudo-Sequenzen, die aus unlabeled statischen Bildern generiert werden. Wir validieren unsere Methode an zwei gängigen Benchmarks, ARMBench mix-object-tote und OCID, wobei sie state-of-the-art Ergebnisse erzielt. Besonders hervorzuheben ist die Leistung auf ARMBench: Wir erreichen einen $\text{AP}{50}$-Wert von 86,37 – eine fast 20 %ige Verbesserung gegenüber bestehenden Ansätzen – und erzielen bemerkenswerte Ergebnisse auch bei extrem geringer Annotation, wobei wir mit nur 1 % annotierter Daten einen $\text{AP}{50}$-Wert von 84,89 erzielen, verglichen mit 72 bei der vollständig annotierten Version im ARMBench-Datensatz.