HyperAIHyperAI

Command Palette

Search for a command to run...

IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상

Tao Zhang Yuyang Hong Yang Xia Kun Ding Zeyu Zhang Ying Wang Shiming Xiang Chunhong Pan

초록

최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 발전으로 다양한 벤치마크에서 놀라운 성과가 달성되고 있다. 그러나 이러한 모델이 적외선 이미지 이해 능력에 대해서는 여전히 탐색되지 않은 영역이다. 이 격차를 보완하기 위해, 우리는 적외선 이미지에 대한 다중모달 이해 능력을 평가하기 위해 설계된 최초의 고품질 벤치마크인 IF-Bench를 제안한다. IF-Bench는 23개의 적외선 데이터셋에서 수집한 총 499장의 이미지와, 10가지 핵심적인 이미지 이해 차원을 포괄하는 680개의 정교하게 구성된 시각질의-응답 쌍(visual question-answer pairs)으로 구성되어 있다. 이 벤치마크를 기반으로, 순환 평가(cyclic evaluation), 이중 언어 평가(bilingual assessment), 하이브리드 판단 전략(hybrid judgment strategies)을 활용하여 40개 이상의 오픈소스 및 클로즈소스 MLLMs를 체계적으로 평가하였다. 분석 결과, 모델 규모, 아키텍처, 추론 패러다임이 적외선 이미지 이해 능력에 미치는 영향을 규명하였으며, 본 연구 분야에 중요한 통찰을 제공한다. 또한, 학습 없이 작동하는 생성형 시각 프롬프팅(Generative Visual Prompting, GenViP) 기법을 제안한다. 이 방법은 고급 이미지 편집 모델을 활용하여 적외선 이미지를 의미적·공간적으로 일치하는 RGB 이미지로 변환함으로써, 도메인 분포의 편차(domain distribution shifts)를 완화한다. 광범위한 실험을 통해 제안한 방법이 다양한 MLLMs에서 일관되게 뚜렷한 성능 향상을 이끌어내는 것을 입증하였다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상 | 문서 | HyperAI초신경