17일 전

메타 프롬프트를 활용한 확산 모델을 통한 시각 인지 활용

Qiang Wan, Zilong Huang, Bingyi Kang, Jiashi Feng, Li Zhang
메타 프롬프트를 활용한 확산 모델을 통한 시각 인지 활용
초록

시각 모델에 대한 생성형 사전 학습(Generative Pretraining) 문제는 오랫동안 해결되지 않은 과제로 남아왔다. 현재 텍스트-이미지(Text-to-Image, T2I) 확산 모델은 대규모 이미지-텍스트 쌍에 대해 사전 학습된 덕분에, 텍스트 입력에 부합하는 고해상도 이미지를 뛰어난 정확도로 생성하는 데 성공하고 있다. 이러한 성과는 자연스럽게 다음과 같은 질문을 제기한다. 확산 모델은 시각 인지 작업(Visual Perception Tasks)에도 활용될 수 있는가? 본 논문에서는 시각 인지 작업에 확산 모델을 효과적으로 활용할 수 있는 간단하면서도 강력한 전략을 제안한다. 우리의 핵심 통찰은 사전 학습된 확산 모델에 학습 가능한 임베딩(메타 프롬프트, meta prompts)을 도입하여 인지 작업에 적합한 특징을 효과적으로 추출하는 것이다. 메타 프롬프트의 효과는 두 가지 측면에서 나타난다. 첫째, T2I 모델 내 텍스트 임베딩의 직접적인 대체로 작용하여 특징 추출 과정에서 작업에 관련된 특징을 활성화한다. 둘째, 추출된 특징을 재정렬하는 데 사용되어, 모델이 현재 작업에 가장 중요한 특징에 집중하도록 보장한다. 또한, 확산 모델의 특성을 극대화할 수 있도록 순환적 개선(Recurrent Refinement) 학습 전략을 설계함으로써 더 강력한 시각 특징을 도출한다. 다양한 벤치마크에서 실시한 광범위한 실험을 통해 제안된 방법의 효과성을 검증하였다. 제안 방법은 NYU Depth V2 및 KITTI 데이터셋에서 깊이 추정(depth estimation) 작업에서 새로운 최고 성능 기록을 달성하였으며, CityScapes 데이터셋에서 세분화(segmentation) 작업에서도 뛰어난 성과를 보였다. 동시에 ADE20K 데이터셋에서의 세분화 및 COCO 데이터셋에서의 자세 추정(pose estimation) 작업에서도 현재 최고 수준의 성능과 비교 가능한 결과를 얻었으며, 이는 제안 방법의 강건성과 다용도성(versatility)을 입증한다.