2달 전

다중 작업 이미지 복원을 위한 비전-언어 모델 제어

Luo, Ziwei ; Gustafsson, Fredrik K. ; Zhao, Zheng ; Sjölund, Jens ; Schön, Thomas B.
다중 작업 이미지 복원을 위한 비전-언어 모델 제어
초록

비전-언어 모델(Vision-language models)인 CLIP과 같은 모델들은 제로샷(zero-shot) 또는 라벨 없는(label-free) 예측을 위한 다양한 하위 작업(downstream tasks)에서 큰 영향을 미쳤습니다. 그러나 이미지 복원(image restoration)과 같은 저레벨 비전(low-level vision) 분야에서는 입력이 손상(corrupted inputs)된 경우 성능이 크게 저하되는 경향이 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해, 다중 작업(multi-task framework)으로 이미지 복원을 수행하는 사전 학습된(pretrained) 비전-언어 모델을 저레벨 비전 작업에 더 잘 적용할 수 있는 감소도 인식(degradation-aware) 비전-언어 모델(DA-CLIP)을 제시합니다.구체적으로, DA-CLIP는 고정된(fixed) CLIP 이미지 인코더(image encoder)를 적응(adapts)시키기 위한 추가적인 컨트롤러(controller)를 학습합니다. 이 컨트롤러는 고품질(high-quality) 특성 임베딩(feature embeddings)을 예측하도록 설계되었습니다. 이러한 임베딩은 크로스 어텐션(cross-attention)을 통해 이미지 복원 네트워크(image restoration network)에 통합(integrating)되어, 모델이 고충실도(high-fidelity) 이미지 재구성을 학습하도록 유도합니다. 또한, 컨트롤러 자체가 입력의 실제 손상(real corruptions)과 일치하는 감소도 특성(degradation feature)을 출력하여, 다양한 감소도 유형(degradation types)에 대한 자연스러운 분류기(classifier) 역할을 합니다.또한, 우리는 DA-CLIP 학습용으로 합성 캡션(synthetic captions)이 포함된 혼합 감소도 데이터셋(mixed degradation dataset)을 구축하였습니다. 우리의 접근 방식은 \emph{감소도 특정(degradation-specific)} 및 \emph{통합(unified)} 이미지 복원 작업에서 최신 기술(state-of-the-art performance)의 성능을 향상시키며, 대규모 사전 학습된 비전-언어 모델을 활용한 이미지 복원의 유망한 방향성을 보여줍니다. 우리의 코드는 https://github.com/Algolzw/daclip-uir에서 확인할 수 있습니다.

다중 작업 이미지 복원을 위한 비전-언어 모델 제어 | 최신 연구 논문 | HyperAI초신경