HyperAI초신경

멀티모달 ArXiv는 2024년 홍콩대학교와 베이징대학교에서 출시되었습니다. 관련 논문은 "멀티모달 ArXiv: 대규모 시각 언어 모델의 과학적 이해력 향상을 위한 데이터 세트", ACL 2024에 의해 승인되었습니다.

이 데이터 세트는 LVLM에 대한 과학적 이해를 높이기 위해 ArXivCap과 ArXivQA로 구성되어 있습니다.

ArXivCap은 다양한 과학 분야를 포괄하는 572,000개의 ArXiv 논문에서 발췌한 640만 개의 이미지와 390만 개의 캡션을 포함하는 그림 캡션 데이터 세트입니다.

연구팀은 ArXivCap을 활용해 GPT-4V가 프롬프트를 통해 과학적 그래프를 기반으로 생성한 질의응답 데이터 세트인 ArXivQA를 소개했습니다. ArXivQA는 오픈 소스 LVLM의 수학적 추론 기능을 크게 향상시켜 다중 모드 수학적 추론 벤치마크에서 절대 정확도가 10.4% 향상되었습니다.

다중 모드 ArXiv 과학적 이해 데이터 세트