Command Palette
Search for a command to run...
Chen Chen ZeYang Hu Fengjiao Chen Liya Ma Jiaxing Liu Xiaoyu Li Ziwen Wang Xuezhi Cao Xunliang Cai

초록
다중모달 대규모 언어 모델은 단일 모달 이해에서 시각, 음성, 언어 모달을 통합하는 '오미(omni) 모델'로 발전해가고 있다. 그러나 단일 모달과 오미 모달 간의 상관관계는 여전히 명확하지 않으며, 이는 오미 모델의 지능적 진화를 촉진하기 위해 종합적인 평가가 필요함을 시사한다. 본 연구에서는 새로운 고품질의 통합형 오미 모델 평가 기준, UNO-Bench를 제안한다. 이 기준은 44개의 작업 유형과 5가지 모달 조합을 아우르는 통일된 능력 분류 체계 하에서 단일 모달과 오미 모달 능력을 효과적으로 평가할 수 있도록 설계되었다. 오미 모달을 위한 1,250개의 인간이 수작업으로 구성한 샘플은 98%의 다중 모달 해결 가능성을 보이며, 단일 모달을 위한 2,480개의 개선된 샘플도 포함하고 있다. 인간이 생성한 데이터셋은 특히 중국어 환경을 포함한 실제 적용 사례에 매우 적합한 반면, 자동 압축된 데이터셋은 18개의 공개 벤치마크에서 98%의 일관성을 유지하면서 처리 속도를 90% 향상시켰다. 전통적인 다지선다형 질문 외에도, 복잡한 추론 능력을 평가하기 위해 혁신적인 다단계 개방형 질문 형식을 제안한다. 또한 일반화된 점수 산정 모델을 도입하여 6가지 질문 유형에 대해 자동 평가를 지원하며, 정확도는 95%에 달한다. 실험 결과, 오미 모달과 단일 모달 성능 사이에 구성적 법칙(Compositional Law)이 존재함을 확인하였으며, 약한 모델에서는 오미 모달 능력이 제한 요소로 작용하는 ' bottleneck 효과'를 보였고, 강한 모델에서는 상호 보완적 증진 효과를 나타냈다.