11일 전

항목을 하나씩 나열하기: 다중모달 LLMs를 위한 새로운 데이터 소스와 학습 패러다임

An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang
항목을 하나씩 나열하기: 다중모달 LLMs를 위한 새로운 데이터 소스와 학습 패러다임
초록

Set-of-Mark (SoM) Prompting은 이미지에 삽입된 태그와 시각적 객체를 연결할 수 있도록 함으로써 GPT-4V의 시각적 기반 능력을 극대화합니다. 이러한 태그는 알파벳과 숫자로 표시되며, 텍스트 토큰을 통해 쉽게 인덱싱할 수 있어 참조가 용이합니다. GPT-4V는 놀라운 성능을 보이지만, 다른 다중모달 대규모 언어 모델(MLLM)들은 이러한 시각적 태그를 이해하는 데 어려움을 겪는 것으로 관찰됩니다. 오픈소스 모델에서 SoM 프롬프팅 학습을 촉진하기 위해, 우리는 새로운 학습 패러다임을 제안합니다: "항목을 하나씩 나열하라". 이 방식은 이미지에 배치된 모든 시각적 태그를 알파벳-숫자 순서에 따라 순서대로 열거하고 설명하도록 모델에 요청합니다. 우리에게 수집된 데이터셋을 다른 시각적 지시 조정 데이터셋과 통합함으로써, 기존의 MLLM들이 SoM 프롬프팅 능력을 갖출 수 있도록 할 수 있습니다. 더불어, 우리의 미세조정된 SoM 모델을 다섯 개의 MLLM 벤치마크에서 평가한 결과, 이 새로운 데이터셋은 상대적으로 작은 규모(태그가 포함된 1만~3만 장의 이미지)임에도 불구하고 MLLM의 시각적 추론 능력을 크게 향상시키고, 환각 현상을 줄이는 데 효과적임을 확인했습니다. 놀랍게도, 추론 과정에서 입력 이미지에서 시각적 태그를 제거해도 이러한 개선 효과가 지속되는 것으로 나타났습니다. 이는 "항목을 하나씩 나열하라"가 MLLM 학습을 위한 새로운 패러다임이 될 가능성을 시사하며, 학습 단계에서 시각적 태그를 활용함으로써 객체-텍스트 정렬을 강화할 수 있음을 보여줍니다. 마지막으로, 학습된 모델을 탐색하여 SoM의 작동 메커니즘을 분석하였습니다. 본 연구의 코드와 데이터는 https://github.com/zzxslp/SoM-LLaVA 에 공개되어 있습니다.

항목을 하나씩 나열하기: 다중모달 LLMs를 위한 새로운 데이터 소스와 학습 패러다임 | 최신 연구 논문 | HyperAI초신경