16일 전

라벨 Anything: 시각적 프롬프트를 활용한 다중 클래스 소수 샘플 세그멘테이션

Pasquale De Marinis, Nicola Fanelli, Raffaele Scaringi, Emanuele Colonna, Giuseppe Fiameni, Gennaro Vessio, Giovanna Castellano
라벨 Anything: 시각적 프롬프트를 활용한 다중 클래스 소수 샘플 세그멘테이션
초록

우리는 소수의 예시만으로도 여러 클래스에 걸쳐 뛰어난 일반화 능력을 보이는 소수 샘플 세분화(few-shot semantic segmentation, FSS)를 위한 혁신적인 신경망 아키텍처인 Label Anything을 제안한다. 기존의 FSS 방법들이 주로 지원 이미지(annotation)에 마스크를 사용하는 데 집중하는 것과 달리, Label Anything은 점(point), 경계 박스(bounding box), 마스크 등 다양한 시각적 프롬프트(visual prompts)를 도입함으로써 프레임워크의 유연성과 적응 능력을 향상시켰다. 본 연구의 독특한 점은 Label Anything이 다중 클래스 FSS 시나리오에서 엔드 투 엔드(end-to-end) 학습이 가능하도록 설계되었으며, 재학습 없이 다양한 지원 세트 구성(configuration)에서 효율적으로 학습할 수 있다는 점이다. 이러한 접근은 1-웨이 1-샷부터 복잡한 N-웨이 K-샷 설정에 이르기까지 다양한 FSS 문제에 대한 ‘일반적(uni-versal)’ 적용이 가능하게 하며, 클래스 예시의 구체적인 수에 대해 무관하게 동작한다. 이 혁신적인 학습 전략은 계산 자원 요구량을 줄이고, 다양한 세분화 작업에서 모델의 적응성과 일반화 능력을 크게 향상시킨다. 광범위한 실험 검증을 통해 COCO-20i 벤치마크에서 최고 수준의 성능을 달성함으로써, Label Anything의 강력한 일반화 능력과 유연성이 입증되었다. 소스 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/pasqualedem/LabelAnything.

라벨 Anything: 시각적 프롬프트를 활용한 다중 클래스 소수 샘플 세그멘테이션 | 최신 연구 논문 | HyperAI초신경