Command Palette

Search for a command to run...

15일 전

오미니비ン시: 옴니모달 이해를 위한 아키텍처 및 데이터 향상 LLM

오미니비ン시: 옴니모달 이해를 위한 아키텍처 및 데이터 향상
LLM

초록

기계지능의 발전을 위해 다중 모달리티를 통한 인지 능력을 개발하는 것이 필수적이다. 이는 인간이 세계를 인지하는 방식과 유사하다. 우리는 강력하고 오픈소스인 다모달 LLM(대규모 언어 모델)을 구축하기 위한 '오미비ン시(OmniVinci)'를 소개한다. 본 연구에서는 모델 아키텍처와 데이터 쿠레이션 측면에서의 설계 선택을 철저히 분석하였다. 모델 아키텍처 측면에서 세 가지 핵심 혁신을 제안한다. (i) 공통의 다모달 잠재 공간 내에서 시각과 음성 임베딩 간의 정렬을 강화하기 위한 '오미얼라인넷(OmniAlignNet)'; (ii) 시각과 음성 신호 간의 상대적 시계열 정렬을 포착하기 위한 '시계열 임베딩 그룹화(Temporal Embedding Grouping)'; (iii) 다모달 임베딩 내에서 절대적 시계열 정보를 인코딩하기 위한 '제약된 로테이션 시간 임베딩(Constrained Rotary Time Embedding)'. 또한, 2,400만 개의 단일 모달 및 다모달 대화 데이터를 생성하는 쿠레이션 및 합성 파이프라인을 제안한다. 우리는 모달 간이 인지 및 추론 과정에서 서로 보완·강화됨을 확인하였다. 제안한 모델인 오미비ン시는 Qwen2.5-Omni 대비 DailyOmni(다모달 이해)에서 +19.05점, MMAR(음성)에서 +1.7점, Video-MME(시각)에서 +3.9점의 성능 향상을 기록했으며, 훈련 토큰 수는 단 0.2T로, Qwen2.5-Omni의 1.2T 대비 6배 감소한 수준이다. 마지막으로, 로봇공학, 의료 AI, 스마트 팩토리 등 다양한 하류 응용 분야에서 다모달의 우수성을 실험적으로 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
오미니비ン시: 옴니모달 이해를 위한 아키텍처 및 데이터 향상 LLM | 연구 논문 | HyperAI초신경