모달리티 생성기
모달리티 생성기(MG)는 다중 모달 학습 시스템의 핵심 구성 요소입니다. 주요 기능은 이미지, 비디오, 오디오 등 다양한 형태의 출력을 생성하는 것입니다. 다중 모달 모델의 맥락에서 모달리티 생성기는 일반적으로 모달리티 인코더(ME), 입력 프로젝터(IP), 대형 모델 백본(LLM 백본), 출력 프로젝터(OP)와 같은 다른 구성 요소와 함께 작동하여 다중 모달 데이터를 이해하고 생성합니다.
모달리티 생성기의 구체적인 구현에는 다음 기술이나 모델이 포함될 수 있지만 이에 국한되지 않습니다.
- 이미지 생성: 확산 모델을 기반으로 한 영상 생성 기술인 안정 확산(Stable Diffusion) 등이 있습니다.
- 비디오 생성: Zeroscope와 같이 비디오 콘텐츠 생성에 중점을 둡니다.
- 오디오 생성: AudioLDM과 같이 오디오 신호를 생성하는 데 사용됩니다.