LLaVA-Med: 하루 만에 바이오의학용 대규모 언어-시각 보조 시스템 훈련하기

대화형 생성 AI는 생물의학 전문가들을 지원하는 데에서 뛰어난 잠재력을 보여주고 있지만, 현재 연구는 단일 모달 텍스트에 초점을 맞추고 있습니다. 다중 모달 대화형 AI는 공개 웹에서 얻은 수십억 개의 이미지-텍스트 쌍을 활용하여 급속한 발전을 이룩하였지만, 이러한 일반 영역 시각-언어 모델들은 여전히 생물의학 이미지를 이해하고 대화하는 데 있어서 세련됨이 부족합니다. 본 논문에서는 생물의학 이미지에 대한 개방형 연구 질문에 답할 수 있는 비용 효율적인 시각-언어 대화형 어시스턴트를 훈련시키는 방법을 제안합니다. 주요 아이디어는 PubMed Central에서 추출한 대규모로 폭넓게 커버하는 생물의학 그림-캡션 데이터셋을 활용하고, GPT-4를 사용하여 캡션에서 개방형 지시사항 준수 데이터를 자동으로 생성한 후, 새로운 커리큘럼 학습 방법을 사용하여 큰 일반 영역 시각-언어 모델을 미세 조정하는 것입니다. 구체적으로, 모델은 먼저 그림-캡션 쌍을 그대로 사용하여 생물의학 용어와 일치하도록 학습하고, 다음으로 GPT-4가 생성한 지시사항 준수 데이터를 사용하여 개방형 대화 의미론을 숙달하도록 학습합니다. 이 과정은 일반인이 점차적으로 생물의학 지식을 습득하는 방식을 광범위하게 흉내 낸 것입니다. 이를 통해 우리는 8개의 A100 GPU를 사용해 15시간 미만으로 생물의학용 대규모 언어 및 시각 어시스턴트(LLaVA-Med)를 훈련시킬 수 있었습니다. LLaVA-Med는 우수한 다중 모달 대화 능력을 보이며, 개방형 지시사항에 따라 생물의학 이미지에 대한 문의를 돕는데 활용될 수 있습니다. 세 가지 표준 생물의학 시각 질문 답변 데이터셋에서 LLaVA-Med는 특정 메트릭에서 기존 감독된 최신 기술보다 우수한 성능을 보였습니다. 생물의학 다중 모달 연구를 촉진하기 위해, 우리는 지시사항 준수 데이터와 LLaVA-Med 모델을 공개할 예정입니다.