항목을 하나씩 나열하기: 다중모달 LLMs를 위한 새로운 데이터 소스와 학습 패러다임

Set-of-Mark (SoM) Prompting은 이미지에 삽입된 태그와 시각적 객체를 연결할 수 있도록 함으로써 GPT-4V의 시각적 기반 능력을 극대화합니다. 이러한 태그는 알파벳과 숫자로 표시되며, 텍스트 토큰을 통해 쉽게 인덱싱할 수 있어 참조가 용이합니다. GPT-4V는 놀라운 성능을 보이지만, 다른 다중모달 대규모 언어 모델(MLLM)들은 이러한 시각적 태그를 이해하는 데 어려움을 겪는 것으로 관찰됩니다. 오픈소스 모델에서 SoM 프롬프팅 학습을 촉진하기 위해, 우리는 새로운 학습 패러다임을 제안합니다: "항목을 하나씩 나열하라". 이 방식은 이미지에 배치된 모든 시각적 태그를 알파벳-숫자 순서에 따라 순서대로 열거하고 설명하도록 모델에 요청합니다. 우리에게 수집된 데이터셋을 다른 시각적 지시 조정 데이터셋과 통합함으로써, 기존의 MLLM들이 SoM 프롬프팅 능력을 갖출 수 있도록 할 수 있습니다. 더불어, 우리의 미세조정된 SoM 모델을 다섯 개의 MLLM 벤치마크에서 평가한 결과, 이 새로운 데이터셋은 상대적으로 작은 규모(태그가 포함된 1만~3만 장의 이미지)임에도 불구하고 MLLM의 시각적 추론 능력을 크게 향상시키고, 환각 현상을 줄이는 데 효과적임을 확인했습니다. 놀랍게도, 추론 과정에서 입력 이미지에서 시각적 태그를 제거해도 이러한 개선 효과가 지속되는 것으로 나타났습니다. 이는 "항목을 하나씩 나열하라"가 MLLM 학습을 위한 새로운 패러다임이 될 가능성을 시사하며, 학습 단계에서 시각적 태그를 활용함으로써 객체-텍스트 정렬을 강화할 수 있음을 보여줍니다. 마지막으로, 학습된 모델을 탐색하여 SoM의 작동 메커니즘을 분석하였습니다. 본 연구의 코드와 데이터는 https://github.com/zzxslp/SoM-LLaVA 에 공개되어 있습니다.