초록

GPT-4o와 같은 대형 다중모달 모델(LMM)의 등장은 텍스트, 시각, 음성 모달을 통합하여 보다 유연한 다중모달 상호작용을 지원하는 방안에 대한 탐구를 촉진시켰습니다. 기존 LMM들은 일반적으로 각 모달의 표현을 시퀀스 차원으로 연결(concatenate)하여 대형 언어 모델(LLM)의 핵심 구조(backbone)에 입력합니다. 시퀀스 차원 연결은 모달 통합에 있어 직관적이지만, 종종 대규모 데이터에 크게 의존하여 모달 간 정렬(alignments)을 학습합니다. 본 논문에서는 이러한 문제점을 해결하기 위해, 모달 간 관계를 보다 목적적으로 모델링하여 보다 효율적이고 유연한 모달 간 정렬을 달성하고자 합니다. 이를 위해 우리는 Stream-Omni라는 이름의 대형 언어-시각-음성 모델을 제안합니다. 이 모델은 LLM을 핵심 구조로 사용하며, 시각과 음성을 텍스트와의 관계를 기반으로 정렬합니다.시각이 텍스트와 의미론적으로 보완적인 경우, Stream-Omni는 시퀀스 차원 연결을 사용하여 시각-텍스트 정렬을 실현합니다. 음성이 텍스트와 의미론적으로 일치하는 경우, Stream-Omni는 CTC(C Connectionist Temporal Classification)-기반 레이어 차원 매핑(layer-dimension mapping)을 도입하여 음성-텍스트 정렬을 달성합니다. 이러한 방법으로 Stream-Omni는 적은 양의 데이터(특히 음성 데이터)로도 모달 간 정렬을 수행할 수 있으며, 텍스트 기능을 다른 모달로 전송할 수 있습니다.여러 벤치마크에서 수행된 실험 결과, Stream-Omni는 시각 이해, 음성 상호작용 및 시각 기반 음성 상호작용 작업에서 강력한 성능을 보임을 입증하였습니다. 레이어 차원 매핑 덕분에 Stream-Omni는 음성 상호작용 중에 중간 텍스트 출력(예: ASR 변환 및 모델 응답)을 동시에 제공할 수 있어 사용자에게 포괄적인 다중모달 경험을 제공합니다.

소스 PDF 코드 보기