메타 프롬프트를 활용한 확산 모델을 통한 시각 인지 활용

시각 모델에 대한 생성형 사전 학습(Generative Pretraining) 문제는 오랫동안 해결되지 않은 과제로 남아왔다. 현재 텍스트-이미지(Text-to-Image, T2I) 확산 모델은 대규모 이미지-텍스트 쌍에 대해 사전 학습된 덕분에, 텍스트 입력에 부합하는 고해상도 이미지를 뛰어난 정확도로 생성하는 데 성공하고 있다. 이러한 성과는 자연스럽게 다음과 같은 질문을 제기한다. 확산 모델은 시각 인지 작업(Visual Perception Tasks)에도 활용될 수 있는가? 본 논문에서는 시각 인지 작업에 확산 모델을 효과적으로 활용할 수 있는 간단하면서도 강력한 전략을 제안한다. 우리의 핵심 통찰은 사전 학습된 확산 모델에 학습 가능한 임베딩(메타 프롬프트, meta prompts)을 도입하여 인지 작업에 적합한 특징을 효과적으로 추출하는 것이다. 메타 프롬프트의 효과는 두 가지 측면에서 나타난다. 첫째, T2I 모델 내 텍스트 임베딩의 직접적인 대체로 작용하여 특징 추출 과정에서 작업에 관련된 특징을 활성화한다. 둘째, 추출된 특징을 재정렬하는 데 사용되어, 모델이 현재 작업에 가장 중요한 특징에 집중하도록 보장한다. 또한, 확산 모델의 특성을 극대화할 수 있도록 순환적 개선(Recurrent Refinement) 학습 전략을 설계함으로써 더 강력한 시각 특징을 도출한다. 다양한 벤치마크에서 실시한 광범위한 실험을 통해 제안된 방법의 효과성을 검증하였다. 제안 방법은 NYU Depth V2 및 KITTI 데이터셋에서 깊이 추정(depth estimation) 작업에서 새로운 최고 성능 기록을 달성하였으며, CityScapes 데이터셋에서 세분화(segmentation) 작업에서도 뛰어난 성과를 보였다. 동시에 ADE20K 데이터셋에서의 세분화 및 COCO 데이터셋에서의 자세 추정(pose estimation) 작업에서도 현재 최고 수준의 성능과 비교 가능한 결과를 얻었으며, 이는 제안 방법의 강건성과 다용도성(versatility)을 입증한다.