HyperAI초신경
4일 전

ScaleCap: 이중 모드 편향 제거를 통한 추론 시점에서 확장 가능한 이미지 캡셔닝

Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
ScaleCap: 이중 모드 편향 제거를 통한 추론 시점에서 확장 가능한 이미지 캡셔닝
초록

본 논문은 추론 시점에서 확장 가능한 이미지 캡셔닝 전략인 ScaleCap을 제시합니다. ScaleCap은 포괄적이고 상세한 이미지 캡션을 생성하는 것을 목표로 합니다. 고품질 이미지 캡셔닝의 주요 난제는 LVLMs(대형 다중 모드 언어 모델)의 고유 편향성에 있습니다: 일부 요소에 대해 세부적으로 설명하면서 다른 요소는 간단히 넘어가는 설명의 불균형성을 초래하는 다중 모달 편향; 존재하지 않는 객체에 대한 환각적인 설명을 유발하는 언어적 편향입니다.이러한 문제를 해결하기 위해, 우리는 추론 비용이 증가함에 따라 캡션을 지속적으로 풍부하게 만들고 교정하는 확장 가능한 편향 제거 캡셔닝 전략을 제안합니다. 구체적으로, 두 가지 새로운 구성 요소를 제안합니다: 직관적인 질문 응답과 대조적인 문장 평가. 첫 번째 구성 요소는 이미지를 기반으로 내용 특화된 질문을 생성하고 이를 답변하여 점진적으로 관련 정보를 캡션에 주입합니다. 두 번째 구성 요소는 문장 단위 오프라인 대조 해독을 사용하여 언어적 편향으로 인한 환각을 효과적으로 식별하고 제거합니다.추론 비용이 증가함에 따라 ScaleCap은 더 많은 직관적인 질문을 생성하여 추가적인 시각적 세부 사항을 점진적으로 포착하며, 이로 인해 더욱 정확하고 균형 잡히며 정보가 충실한 캡션을 생성할 수 있습니다. 광범위한 모달리티 정렬 실험들은 ScaleCap의 효과성을 입증하였습니다. 45만 장의 이미지를 ScaleCap으로 주석 처리하고 이를 LVLM 사전 학습에 활용하면 11개의 널리 사용되는 벤치마크에서 일관된 성능 개선이 이루어집니다.또한, ScaleCap은 VQA 작업에서 이미지를 캡션으로 대체하거나, 캡션에서 이미지를 재구성하여 의미 범위를 평가하는 두 가지 부가 작업에서도 생성된 캡션이 뛰어난 다양성과 충실성을 보여줍니다. 코드는 https://github.com/Cooperx521/ScaleCap에서 확인할 수 있습니다.