시각적 프롬프팅을 이용한 일반화된 소수 샘플 분할: 다중 스케일 접근법

주의 기반 트랜스포머 모델의 등장은 이들의 우수한 일반화 및 전이 특성으로 인해 다양한 작업에서 광범위하게 사용되게 되었습니다. 최근 연구에서는 이러한 모델이 적절히 프롬프팅될 때 소수 샘플 추론(few-shot inference)에 매우 효과적임을 입증하였습니다. 그러나, 의미 분할(semantic segmentation)과 같은 밀집 예측(dense prediction) 작업에 대한 이러한 기술은 아직 충분히 탐구되지 않았습니다.본 연구에서는 학습된 시각적 프롬프트를 사용하여 트랜스포머 디코더를 프롬프팅하는 것이 일반화된 소수 샘플 분할(generalized few-shot segmentation, GFSS) 작업에서 얼마나 효과적인지 검토합니다. 우리의 목표는 제한된 예제로만 구성된 새로운 범주에서 뿐 아니라, 기존 범주에서도 성능을 유지하는 강력한 성능을 달성하는 것입니다. 우리는 제한된 예제를 사용하여 시각적 프롬프트를 학습하는 방법을 제안합니다. 이 학습된 시각적 프롬프트는 다중 스케일 트랜스포머 디코더를 프롬프팅하여 정확한 밀집 예측을 촉진하는 데 사용됩니다.또한, 제한된 예제로 학습된 새로운 프롬프트와 풍부한 데이터로 학습된 기존 프롬프트 사이의 단방향 인과 주의 메커니즘(unidirectional causal attention mechanism)을 소개합니다. 이 메커니즘은 새로운 프롬프트를 향상시키면서도 기존 클래스의 성능을 저하시키지 않습니다. 전체적으로, 이러한 형태의 프롬프팅은 COCO-$20^i$와 Pascal-$5^i$ 두 가지 다른 벤치마크 데이터셋에서 테스트 시간 최적화(test-time optimization)나 추론(transduction) 없이도 GFSS에 있어 최고 수준의 성능을 달성하는데 도움이 됩니다.또한, 비라벨 테스트 데이터를 활용한 테스트 시간 최적화는 프롬프트를 개선하는 데 사용될 수 있으며, 이를 추론적 프롬프트 조정(transductive prompt tuning)이라고 부릅니다.