중국 과학원, 다중 모달 AI의 한계 극복한 Stream-Omni 발표
중국 과학원에서 새롭게 제안한 스트림오미니(Stream-Omni): 시각-언어-음성 크로스모달 실시간 AI 모델 대형 다모달 모델(LMM)은 텍스트, 시각, 음성 등 다양한 모달에서 뛰어난 다기능성을 보여주며, 다양한 응용 프로그램에 큰 잠재력을 제공하고 있습니다. 그러나 시각 중심의 LMM이 성공을 거두고 있는 반면, 시각 정보를 기반으로 음성 상호작용을 지원하는 다모달 LMM은 모달 간 본질적인 표현 차이로 인해 도전과제를 안고 있습니다. 최근의 다모달 LMM들은 각 모달 인코더에서 추출된 표현들을 시퀀스 차원으로 결합하여 텍스트, 시각, 음성을 통합하려고 하지만, 이는 대규모 데이터에 의존하여 모달 간 일치성을 학습해야 하는 문제를 야기합니다. 이는 공개된 삼모달 데이터셋이 제한적이라는 점과, 음성 상호작용 중 중간 텍스트 결과를 생성하는 데 충분한 유연성이 부족하다는 점에서 문제가 되었습니다. 현재의 LMM 분류 현재의 LMM들은 세 가지 카테고리로 나눌 수 있습니다: 시각 중심, 음성 중심, 그리고 다모달 모델. - 시각 중심 LMM: LLaVA와 같은 모델은 시각 인코더를 사용하여 시각적 특성을 추출하고, 이를 텍스트 입력과 결합하여 LLM에 전달하여 텍스트를 생성합니다. - 음성 중심 LMM: Mini-Omni와 LLaMA-Omni는 연속적인 방법을 사용하여 특성을 LLM 임베딩 공간으로 투영하거나, SpeechGPT와 Moshi는 음성을 이산 단위로 변환하여 LLM에서 직접 처리합니다. - 다모달 LMM: VITA-1.5, MiniCPM2.6-o, Qwen2.5-Omni는 다양한 인코더에서 표현을 추출하고, 이를 결합하여 다모달 이해를 수행하며, 음성 디코더를 통해合成. 스트림오미니(Stream-Omni) 소개: 텍스트 중심의 정렬 접근법 중국 과학원 대학의 연구진은 모달 정렬 문제를 해결하기 위해 스트림오미니(Stream-Omni)라는 대형 언어-시각-음성 모델을 제안했습니다. 이 모델은 LLM 기반을 사용하며, 시각과 음성 모달의 의미 관계를 기반으로 텍스트를 정렬하는 방식을 취합니다. 시각-텍스트 정렬을 위해 시퀀스 차원에서 시각과 텍스트를 결합하는 방법을 적용했으며, 음성-텍스트 정렬을 위해 CTC 기반의 계층 차원 매핑을 도입하였습니다. 스트림오미니의 설계는 단순 결합 방식의 한계를 극복하고, 목적 지향적인 정렬 메커니즘을 도입함으로써 모달 간 일치성을 효과적으로 달성합니다. 아키텍처 개요: 쌍방향 음성 통합 및 시각 인코딩 스트림오미니는 LLM 기반을 사용하며, 점진적인 모달 정렬 전략을 적용합니다. 시각-텍스트 정렬을 위해 시각 인코더와 투영 계층을 사용하여 시각적 표현을 추출합니다. 음성-텍스트 정렬을 위해 LLM 기반의 하단과 상단에 특수한 음성 계층을 도입하여 음성과 텍스트 모달 간 양방향 매핑을 가능하게 합니다. 스트림오미니는 자동화된 파이프라인을 통해 훈련 코퍼스를 구축하며, LLaVA 데이터셋을 활용하여 시각-텍스트 쌍을, LibriSpeech와 WenetSpeech를 활용하여 음성-텍스트 데이터를 생성하고, 기존 지시문 데이터셋을 텍스트-음성 합성으로 변환하여 InstructOmni 데이터셋을 만들었습니다. 다양한 영역에서의 다모달 성능 벤치마킹 시각 이해 작업에서 스트림오미니는 최신 시각 중심 LMM들과 비슷한 성능을 보여주며, VITA-1.5보다 우월한 성능을 발휘하며 모달 간 간섭을 줄이고 강력한 시각 능력을 유지합니다. 음성 상호작용에서는 23,000시간의 음성 데이터만을 사용해 SpeechGPT, Moshi, GLM-4-Voice 등 이산 음성 단위 기반 모델들보다 뛰어난 지식 기반 성능을 보여줍니다. SpokenVisIT 벤치마크에서의 시각 기반 음성 상호작용 평가에서 스트림오미니는 실제 세계의 시각 이해에서 VITA-1.5를 능가합니다. 또한, LibriSpeech 벤치마크에서 스트림오미니의 음성-텍스트 매핑 품질은 정확도와 추론 시간 면에서 우수한 ASR 성능을 보여줍니다. 결론: 다모달 정렬의 패러다임 변화 결론적으로, 연구팀은 스트림오미니를 통해 다모달 시스템에서의 모달 정렬 문제를 해결하는 새로운 방법론을 제시했습니다. 이 방법론은 시각-텍스트 쌍에 대한 시퀀스 차원 결합과 음성-텍스트 통합을 위한 계층 차원 매핑을 통해 효과적인 모달 정렬을 달성할 수 있음을 보여주며, 대규모 삼모달 훈련 데이터에 의존하지 않는 것이 가능하다는 점을 입증했습니다. 이 연구는 전통적인 결합 기반 접근 방식의 한계를 극복하고, 의미 관계를 기반으로 한 목적 지향적인 정렬 전략이 다모달 AI 시스템에서 중요한 역할을 할 수 있다는 새로운 패러다임을 제시합니다. 업계 전문가들은 스트림오미니의 출현이 다모달 AI 연구의 중요한 진전이라고 평가합니다. 이 모델은 다양한 모달 간 효율적인 일치성을 달성하기 위해 필요한 데이터의 양을 크게 줄이는 데 성공하였으며, 특히 실시간 음성 상호작용에서 뛰어난 성능을 보여주었습니다. 중국 과학원 대학의 연구팀은 이러한 혁신적인 접근 방식을 통해 다모달 AI 분야에서 새로운 길을 열었다는 평가를 받고 있습니다.