
소수 샘플 객체 검출(few-shot object detection)은 몇 개의 예제 이미지만 주어진 상태에서 새로운 카테고리를 검출하는 것을 목표로 합니다. 이는 오픈 환경에서 로봇이 작업을 수행하기 위한 기본적인 기술입니다. 최근의 방법들은 복잡한 절차로 인해 널리 적용하기 어려운 미세 조정(finetuning) 전략에 초점을 맞추고 있습니다. 본 논문에서는 미세 조정 없이 소수 샘플 객체를 검출할 수 있는 DE-ViT를 소개합니다. DE-ViT의 혁신적인 아키텍처는 객체 위치 추정을 위한 새로운 영역 전파 메커니즘에 기반하고 있습니다. 전파된 영역 마스크는 학습 가능한 공간 적분 레이어를 통해 바운딩 박스로 변환됩니다. 프로토타입 분류기를 훈련시키는 대신, 우리는 ViT 특성을 과적합(overfitting)을 방지하는 하위 공간으로 투영(projection)하기 위해 프로토타입을 사용하는 방법을 제안합니다.DE-ViT는 Pascal VOC, COCO, 그리고 LVIS 데이터셋을 사용한 소수 샘플 및 단일 샘플(one-shot) 객체 검출 벤치마크에서 평가되었습니다. DE-ViT는 모든 벤치마크에서 새로운 최고 성능(state-of-the-art, SoTA) 결과를 달성했습니다. 특히 COCO 데이터셋에서, DE-ViT는 10 샷(shot)에서는 기존 소수 샘플 SoTA보다 15 mAP(median Average Precision), 30 샷에서는 7.2 mAP를 뛰어넘었습니다. 또한 단일 샘플 SoTA에서는 2.8 AP50(Average Precision at 50% IoU)를 초과했습니다. LVIS 데이터셋에서도 DE-ViT는 소수 샘플 SoTA보다 17 박스 APr(box Average Precision at recall)를 뛰어넘었습니다.또한, 실제 로봇 시스템에서 DE-ViT의 성능을 평가하기 위해 예제 이미지를 기반으로 새로운 객체를 정렬하는 픽 앤 플레이스(pick-and-place) 시스템을 구축하였습니다. 우리의 로봇 시연 동영상, 소스 코드 및 DE-ViT 모델은 https://mlzxy.github.io/devit 에서 확인할 수 있습니다.