HyperAIHyperAI

Command Palette

Search for a command to run...

스트림-오미니: 대형 언어-시각-음성 모델을 이용한 동시 다모달 상호작용

Shaolei Zhang Shoutao Guo Qingkai Fang Yan Zhou Yang Feng

초록

GPT-4o와 같은 대형 다중모달 모델(LMM)의 등장은 텍스트, 시각, 음성 모달을 통합하여 보다 유연한 다중모달 상호작용을 지원하는 방안에 대한 탐구를 촉진시켰습니다. 기존 LMM들은 일반적으로 각 모달의 표현을 시퀀스 차원으로 연결(concatenate)하여 대형 언어 모델(LLM)의 핵심 구조(backbone)에 입력합니다. 시퀀스 차원 연결은 모달 통합에 있어 직관적이지만, 종종 대규모 데이터에 크게 의존하여 모달 간 정렬(alignments)을 학습합니다. 본 논문에서는 이러한 문제점을 해결하기 위해, 모달 간 관계를 보다 목적적으로 모델링하여 보다 효율적이고 유연한 모달 간 정렬을 달성하고자 합니다. 이를 위해 우리는 Stream-Omni라는 이름의 대형 언어-시각-음성 모델을 제안합니다. 이 모델은 LLM을 핵심 구조로 사용하며, 시각과 음성을 텍스트와의 관계를 기반으로 정렬합니다.시각이 텍스트와 의미론적으로 보완적인 경우, Stream-Omni는 시퀀스 차원 연결을 사용하여 시각-텍스트 정렬을 실현합니다. 음성이 텍스트와 의미론적으로 일치하는 경우, Stream-Omni는 CTC(C Connectionist Temporal Classification)-기반 레이어 차원 매핑(layer-dimension mapping)을 도입하여 음성-텍스트 정렬을 달성합니다. 이러한 방법으로 Stream-Omni는 적은 양의 데이터(특히 음성 데이터)로도 모달 간 정렬을 수행할 수 있으며, 텍스트 기능을 다른 모달로 전송할 수 있습니다.여러 벤치마크에서 수행된 실험 결과, Stream-Omni는 시각 이해, 음성 상호작용 및 시각 기반 음성 상호작용 작업에서 강력한 성능을 보임을 입증하였습니다. 레이어 차원 매핑 덕분에 Stream-Omni는 음성 상호작용 중에 중간 텍스트 출력(예: ASR 변환 및 모델 응답)을 동시에 제공할 수 있어 사용자에게 포괄적인 다중모달 경험을 제공합니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
스트림-오미니: 대형 언어-시각-음성 모델을 이용한 동시 다모달 상호작용 | 문서 | HyperAI초신경