2달 전

원숭이: 대형 다중 모드 모델에서 이미지 해상도와 텍스트 라벨은 중요한 요소입니다.

Li, Zhang ; Yang, Biao ; Liu, Qiang ; Ma, Zhiyin ; Zhang, Shuo ; Yang, Jingxu ; Sun, Yabo ; Liu, Yuliang ; Bai, Xiang
원숭이: 대형 다중 모드 모델에서 이미지 해상도와 텍스트 라벨은 중요한 요소입니다.
초록

대형 다중 모드 모델(Large Multimodal Models, LMMs)은 시각-언어 작업에서 잠재력을 보여주고 있지만, 고해상도 입력과 상세한 장면 이해에 어려움을 겪고 있습니다. 이러한 도전 과제를 해결하기 위해, 우리는 LMM의 기능을 향상시키는 Monkey를 소개합니다.첫째, Monkey는 입력 이미지를 균일한 패치로 나누어 처리합니다. 각 패치는 잘 훈련된 시각 인코더의 원래 훈련에서 사용된 크기(예: 448x448)와 일치합니다. 각 패치에 개별 어댑터를 장착함으로써, Monkey는 최대 1344x896 픽셀까지의 고해상도를 처리할 수 있어 복잡한 시각 정보를 세밀하게 포착할 수 있습니다.둘째, Monkey는 다단계 설명 생성 방법을 사용하여 장면-객체 연관성의 문맥을 풍부하게 합니다. 이 두 가지 전략은 생성 데이터로부터 더 효과적인 학습을 보장합니다. 고해상도는 시각 정보의 더 세밀한 포착을 가능케 하며, 이는 종합적인 설명의 효과성을 높입니다. 광범위한 점진적 결과(ablative results)가 우리의 설계가 유효함을 검증하였습니다.또한, 18개 데이터셋에 대한 실험 결과는 Monkey가 이미지 캡셔닝(Image Captioning) 및 다양한 비주얼 질문 응답(Visual Question Answering) 형식 등 여러 작업에서 기존 LMMs보다 우수함을 입증하였습니다. 특히 밀집된 텍스트 질문 응답에 초점을 맞춘 정성적 테스트에서는 GPT4V와 비교하여 긍정적인 결과를 보였습니다.코드는 https://github.com/Yuliang-Liu/Monkey 에서 확인할 수 있습니다.