Command Palette
Search for a command to run...

초록
최근 통합 다중모달 모델(UMMs)의 발전은 시각적 이해 및 생성 측면에서 놀라운 진전을 이뤄냈다. 그러나 기존의 데이터셋과 벤치마크는 주로 단일 대화 턴(single-turn) 상호작용에 초점을 맞추고 있어, 실제 이미지 생성 및 편집 과정에서 나타나는 다단계적이고 맥락 의존적인 특성을 충분히 반영하지 못하고 있다. 이러한 격차를 보완하기 위해, 우리는 처음으로 맥락 내에서 교차 모달의 이해와 생성을 혼합하여 수행할 수 있는 WEAVE를 제안한다. 본 연구에서 제안하는 WEAVE는 두 가지 보완적인 구성 요소로 이루어져 있다. 첫째, WEAVE-100k는 100만 개의 교차 샘플을 포함하는 대규모 데이터셋으로, 37만 개 이상의 대화 턴과 50만 장 이상의 이미지를 포함하며, 과거 맥락에 대한 추론이 필요한 이해, 편집, 생성 작업을 포괄한다. 둘째, WEAVEBench는 480개의 이미지 기반으로 구성된 100개의 인간 주석 태스크를 포함하는 벤치마크로, 참조 이미지와 원본 이미지에 편집 지시사항을 결합한 결과를 기반으로 하는 하이브리드 VLM 평가 프레임워크를 도입하여, 모델의 다단계 생성 능력, 시각적 기억력, 그리고 다양한 도메인에 걸친 세계 지식 추론 능력을 종합적으로 평가한다. 실험 결과, WEAVE-100k 데이터셋을 기반으로 학습함으로써 비전 이해, 이미지 편집, 이해-생성 협업 능력이 향상됨을 확인할 수 있었다. 또한, UMMs가 새로운 시각적 기억 능력을 발현할 수 있도록 지원함과 동시에, WEAVEBench에서의 광범위한 평가를 통해 현재의 접근 방식이 다단계적이고 맥락 인식 기반의 이미지 생성 및 편집에서 여전히 지속적인 한계와 도전 과제를 안고 있음을 드러냈다. 우리는 WEAVE가 다중모달 커뮤니티가 맥락 내에서 교차 모달의 이해와 생성을 연구하는 데 있어 중요한 시각과 기반을 제공할 것이라고 기대한다.