2달 전

노이즈 주입된 CLIP을 사용한 이미지 캡셔닝의 텍스트만 학습

David Nukrai; Ron Mokady; Amir Globerson
노이즈 주입된 CLIP을 사용한 이미지 캡셔닝의 텍스트만 학습
초록

우리는 훈련 시에 CLIP 모델과 추가적인 텍스트 데이터만을 사용하여 이미지 캡셔닝 작업을 수행하는 방법을 고려합니다. 여기서는 추가적인 캡션된 이미지를 사용하지 않습니다. 우리의 접근 방식은 CLIP이 시각적 임베딩과 텍스트 임베딩을 유사하게 만드는 데 훈련되었기 때문에 기반하고 있습니다. 따라서, 우리는 CLIP의 텍스트 임베딩을 다시 텍스트로 변환하는 방법만 배우면 되며, 이는 동결된 CLIP 텍스트 인코더를 위한 디코더를 단순히 텍스트만으로 학습함으로써 배울 수 있습니다. 우리는 이 직관이 "거의 올바르다"고 주장하지만, 임베딩 공간 사이에 간극이 존재하기 때문에 이를 수정하기 위해 훈련 중 노이즈 주입을 제안합니다. 우리는 네 가지 벤치마크에서 스타일 전환 포함하여 최신 수준의 제로샷 이미지 캡셔닝 성능을 보여주어 우리의 접근 방식의 효과성을 입증합니다. 코드, 데이터 및 모델은 GitHub에서 제공됩니다.

노이즈 주입된 CLIP을 사용한 이미지 캡셔닝의 텍스트만 학습 | 최신 연구 논문 | HyperAI초신경