그립핑을 위한 소량의 애노테이션을 활용한 로봇 인스턴스 세그멘테이션

로봇이 물체를 조작할 수 있는 능력은 시각 인식 능력에 크게 의존한다. 혼잡한 장면과 높은 물체 변동성이 특징인 분야에서는 대부분의 기법이, 효과적인 모델을 훈련시키기 위해 방대한 레이블이 부여된 데이터셋을 요구하며, 이러한 데이터셋은 수작업으로 정밀하게 주석이 달린 것이다. 배포된 이후에도 낯선 물체에 일반화할 수 있어야 한다는 과제는 모델이 도메인과 함께 진화해야 함을 의미한다. 이를 해결하기 위해 우리는 반감독 학습(Semi-Supervised Learning, SSL)과 상호작용을 통한 학습(Learning Through Interaction, LTI)을 결합한 새로운 프레임워크를 제안한다. 이 프레임워크는 장면의 변화를 관찰함으로써 학습하고, 시간적 간격이 존재하더라도 시각적 일관성을 활용할 수 있도록 하며, 상호작용 시퀀스에 대한 정제된 데이터가 필요하지 않다. 결과적으로 본 방법은 자기지도 학습을 통해 부분적으로 주석이 달린 데이터를 활용하고, 레이블이 없는 정지 이미지에서 생성된 가상 시퀀스를 사용하여 시간적 맥락을 통합한다. 제안한 방법은 ARMBench mix-object-tote와 OCID라는 두 가지 대표적인 벤치마크에서 검증되었으며, 최신 기술 수준의 성능을 달성하였다. 특히 ARMBench에서 $\text{AP}{50}$가 86.37을 기록하며 기존 연구 대비 약 20%의 성능 향상을 달성하였으며, 주석 데이터가 극도로 낮은 상황에서도 뛰어난 성능을 보였다. 전체 주석 데이터를 사용한 기준 대비 단 1%의 주석 데이터만으로도 $\text{AP}{50}$ 84.89의 성과를 달성하였으며, 이는 기존 ARMBench의 72에 비해 높은 수준의 성능이다.