HyperAI초신경
16일 전

Ovis-U1 기술 보고서

Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
Ovis-U1 기술 보고서
초록

이 보고서에서는 30억 개의 파라미터를 가진 통합 모델인 Ovis-U1을 소개합니다. Ovis 시리즈의 기반 위에 구축된 Ovis-U1은 다중 모드 이해, 텍스트-이미지 생성, 그리고 이미지 편집 기능을 통합합니다. 이 모델은 확산 기반 시각 디코더와 양방향 토큰 리파이너를 결합하여 GPT-4o와 같은 선도적인 모델과 비교할 수 있는 이미지 생성 작업을 수행할 수 있습니다. 일부 이전 모델들이 생성 작업에 동결된 MLLM(다중 언어 및 시각적 언어 모델)을 사용하는 것과 달리, Ovis-U1은 언어 모델에서 시작되는 새로운 통합 학습 접근법을 활용합니다. 이해 또는 생성 작업만으로 학습하는 것보다 통합 학습이 더 우수한 성능을 내는 것을 입증하며, 이 두 작업을 통합함으로써 달성된 향상을 보여줍니다. Ovis-U1은 OpenCompass 다중 모드 학술 벤치마크에서 69.6점을 획득하여 Ristretto-3B와 SAIL-VL-1.5-2B 등의 최근 최신 모델들을 능가합니다. 텍스트-이미지 생성에서는 DPG-Bench와 GenEval 벤치마크에서 각각 83.72점과 0.89점을 기록하며 뛰어난 성능을 보여주며, 이미지 편집에서는 ImgEdit-Bench와 GEdit-Bench-EN에서 각각 4.00점과 6.42점을 획득하였습니다. Ovis 통합 모델 시리즈의 첫 번째 버전인 Ovis-U1은 다중 모드 이해, 생성, 그리고 편집의 경계를 확장하고 있습니다.