2달 전
분류 데이터셋과 그 의미 계층을 활용한 비즈니스-언어 모델의 개방형 VQA 벤치마킹
Ging, Simon ; Bravo, María A. ; Brox, Thomas

초록
텍스트 생성 비전-언어 모델의 평가는 도전적이면서도 중요한 작업입니다. 기존의 시각적 질문 응답(VQA) 벤치마크의 제한점을 해결하고 혁신적인 평가 방법론을 제안함으로써, 우리의 연구는 이러한 모델들의 능력을 더 잘 이해하는 데 기여하고자 합니다. 우리는 잘 알려진 시각 분류 데이터셋을 기반으로 하는 새로운 VQA 벤치마크를 제안합니다. 이 벤치마크는 텍스트 생성 비전-언어 모델의 세부적인 평가와 판별적 비전-언어 모델과의 비교를 가능하게 합니다. 미세한 분류 작업에서 대략적인 답변의 평가를 개선하기 위해, 라벨 공간의 의미 계층 구조를 활용하여 자동으로 생성된 후속 질문을 제시하는 방법을 권장합니다. 마지막으로, 지면 진리 답변이 주어졌을 때 모델 예측을 평가하는 문제에 대해 전통적인 자연어 처리(NLP) 및 대형 언어 모델(LLM) 기반 메트릭을 비교합니다. 이를 바탕으로 인간 평가 연구를 수행하여 최종 메트릭 결정에 근거를 두었습니다. 우리는 제안한 벤치마크를 다양한 비전-언어 모델에 적용하여 객체, 행동, 속성 분류에서의 능력 차이를 상세히 비교하였습니다. 우리의 공헌은 보다 정확하고 유의미한 평가 방식을 마련하여, 비전-언어 모델링이라는 흥미로운 분야에서 목표 지향적인 발전을 촉진하고자 하는 것입니다.