LaDiC: 이미지-텍스트 생성에서 확산 모델이 자동회귀 대안보다 진정으로 열등한가?

확산 모델은 텍스트에서 이미지 생성 측면에서 놀라운 성능을 보여왔다. 그러나 이미지에서 텍스트 생성, 특히 이미지 캡셔닝(task)에서는 자기회귀(Auto-Regressive, AR) 모델에 비해 성능이 뒤처지며, 이는 이러한 작업에 대한 확산 모델의 적용 가능성을 의심하게 만들고 있다. 본 연구에서는 확산 모델의 재검토를 통해, 전반적인 맥락 모델링 능력과 병렬 디코딩 가능성을 강조한다. 이러한 장점 덕분에 확산 모델은 AR 방법의 내재적 한계—즉, 느린 추론 속도, 오류 전파, 단방향 제약—를 완화할 수 있다. 또한, 확산 모델의 성능 저하 원인이 이미지-텍스트 정렬을 위한 효과적인 잠재 공간의 부재와 연속적인 확산 과정과 이산적인 텍스트 데이터 간의 불일치에 있음을 밝혀냈다. 이를 해결하기 위해 우리는 새로운 아키텍처인 LaDiC(Latent space for Image-to-Text Captioning)를 제안한다. LaDiC는 캡셔닝을 위한 전용 잠재 공간을 생성하기 위해 분할된 BERT(split BERT)를 활용하고, 다양한 텍스트 길이를 관리하기 위한 정규화 모듈을 통합한다. 본 프레임워크는 의미론적 이미지-텍스트 변환을 위한 확산기(diffuser)와 추론 중 토큰 간 상호작용을 강화하기 위한 Back&Refine 기법을 포함한다. LaDiC는 MS COCO 데이터셋에서 38.2 BLEU@4 및 126.2 CIDEr의 최고 성능을 기록하며, 사전 훈련이나 보조 모듈 없이도 확산 기반 모델 중 최상의 성능을 달성하였다. 이는 AR 모델과 경쟁 가능한 수준의 성능을 보여주며, 이미지-텍스트 생성 분야에서 확산 모델이 과거에 간과되었던 잠재력을 갖추고 있음을 입증한다.