한 달 전

비전-언어-비전 오토인코더: 확산 모델에서의 확장 가능한 지식 증류

Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao
비전-언어-비전 오토인코더: 확산 모델에서의 확장 가능한 지식 증류
초록

최신 비전-언어 모델(Vision-Language Models, VLMs)을 강력한 캡셔닝 기능으로 구축하는 것은 일반적으로 수십억 개의 고품질 이미지-텍스트 쌍에 대한 학습이 필요하며, 이는 수백만 시간의 GPU 연산을 요구합니다. 본 논문에서는 비전-언어-비전(Vision-Language-Vision, VLV) 오토인코더 프레임워크를 소개하는데, 이는 전략적으로 주요 사전 학습된 구성 요소들을 활용합니다: 비전 인코더, 텍스트-이미지(Text-to-Image, T2I) 확산 모델의 디코더, 그리고 그 다음으로 대형 언어 모델(Large Language Model, LLM)입니다. 특히, 사전 학습된 T2I 확산 디코더를 동결하여 언어 표현 공간을 규제함으로써 정보 병목 현상을 설정합니다. 우리의 VLV 파이프라인은 연속 임베딩을 사용하여 텍스트 조건부 확산 모델에서 지식을 효과적으로 추출하며, 고품질 재구성을 통해 포괄적인 의미론적 이해를 보여줍니다. 또한, 사전 학습된 LLM을 중간 언어 표현을 상세한 설명으로 디코딩하도록 미세 조정함으로써 GPT-4o 및 Gemini 2.0 Flash와 같은 선도적인 모델과 비교할 수 있는 최신(Stat-of-the-Art, SoTA) 캡셔닝 시스템을 구축합니다. 우리의 방법은 뛰어난 비용 효율성을 보이며 데이터 요구량을大幅减少; 主要利用单模态图像进行训练,并最大化现有预训练模型(图像编码器、T2I扩散模型和LLM)的效用,从而避免了对大规模配对图像-文本数据集的需求,将总训练费用控制在1000美元以下。修正后的翻译:우리의 방법은 뛰어난 비용 효율성을 보이며 데이터 요구량을 크게 줄입니다. 주로 단일 모달 이미지를 활용하여 학습하고 기존의 사전 학습된 모델(이미지 인코더, T2I 확산 모델, 그리고 LLM)의 효용성을 극대화함으로써 대규모 짝짓기 이미지-텍스트 데이터셋의 필요성을 회피하며, 총 학습 비용을 1000 달러 미만으로 유지합니다.

비전-언어-비전 오토인코더: 확산 모델에서의 확장 가능한 지식 증류 | 최신 연구 논문 | HyperAI초신경