Command Palette

Search for a command to run...

21일 전

오미비디오벤치: 옴니멀티모달 언어모델을 위한 오디오-비주얼 이해 평가로 나아가기

오미비디오벤치: 옴니멀티모달 언어모델을 위한 오디오-비주얼 이해 평가로 나아가기

초록

최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 발전은 영상 이해 분야에서 큰 잠재력을 보여주고 있다. 그러나 기존의 평가 벤치마크들은 음성과 시각 모달 간의 상호보완적 추론 능력을 종합적으로 평가하지 못하며, 종종 한쪽 모달을 간과하거나 논리적으로 일관되지 않은 방식으로 두 모달을 통합하는 문제가 있다. 이러한 격차를 메우기 위해 우리는 다중모달 상호보완성과 논리적 일관성에 중점을 두고, 상호작용적 음성-시각 이해 능력을 평가하기 위해 설계된 대규모이고 철저한 벤치마크인 OmniVideoBench를 제안한다. 구체적으로, OmniVideoBench는 628편의 다양한 영상(길이는 수 초에서 최대 30분까지)에서 유래한 1,000개의 고품질 질문-답변(QA) 쌍으로 구성되며, 각 쌍은 단계별 추론 흐름을 함께 제공하고 있으며, 수작업으로 정확성과 고유성을 보장하였다. 또한, OmniVideoBench는 시계적 추론, 공간적 위치 파악, 카운팅, 인과 추론, 요약 등 13가지 신중하게 설계된 질문 유형을 포함하고 있어 영상 이해의 핵심 도전 과제를 포괄적으로 반영한다. OmniVideoBench에서 여러 MLLMs를 평가한 결과, 모델 성능과 인간의 추론 능력 사이에 뚜렷한 격차가 확인되었으며, 오픈소스 모델은 폐쇄소스 모델에 비해 크게 뒤처지는 것으로 나타나 진정한 음성-시각 추론의 내재적 어려움이 드러났다. 본 연구에서는 OmniVideoBench를 공개함으로써 더 강력하고 일반화 능력이 뛰어난 추론 능력을 갖춘 MLLMs의 개발을 촉진하고자 한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
오미비디오벤치: 옴니멀티모달 언어모델을 위한 오디오-비주얼 이해 평가로 나아가기 | 연구 논문 | HyperAI초신경