초록

최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 발전으로 다양한 벤치마크에서 놀라운 성과가 달성되고 있다. 그러나 이러한 모델이 적외선 이미지 이해 능력에 대해서는 여전히 탐색되지 않은 영역이다. 이 격차를 보완하기 위해, 우리는 적외선 이미지에 대한 다중모달 이해 능력을 평가하기 위해 설계된 최초의 고품질 벤치마크인 IF-Bench를 제안한다. IF-Bench는 23개의 적외선 데이터셋에서 수집한 총 499장의 이미지와, 10가지 핵심적인 이미지 이해 차원을 포괄하는 680개의 정교하게 구성된 시각질의-응답 쌍(visual question-answer pairs)으로 구성되어 있다. 이 벤치마크를 기반으로, 순환 평가(cyclic evaluation), 이중 언어 평가(bilingual assessment), 하이브리드 판단 전략(hybrid judgment strategies)을 활용하여 40개 이상의 오픈소스 및 클로즈소스 MLLMs를 체계적으로 평가하였다. 분석 결과, 모델 규모, 아키텍처, 추론 패러다임이 적외선 이미지 이해 능력에 미치는 영향을 규명하였으며, 본 연구 분야에 중요한 통찰을 제공한다. 또한, 학습 없이 작동하는 생성형 시각 프롬프팅(Generative Visual Prompting, GenViP) 기법을 제안한다. 이 방법은 고급 이미지 편집 모델을 활용하여 적외선 이미지를 의미적·공간적으로 일치하는 RGB 이미지로 변환함으로써, 도메인 분포의 편차(domain distribution shifts)를 완화한다. 광범위한 실험을 통해 제안한 방법이 다양한 MLLMs에서 일관되게 뚜렷한 성능 향상을 이끌어내는 것을 입증하였다.

소스 PDF 코드 보기