초록

치과 분야에서 다중 모달 데이터를 신뢰할 수 있게 해석하는 것은 자동화된 구강 건강 관리에 필수적이지만, 현재의 다중 모달 대규모 언어 모델(MLLM)은 세부적인 치과 영상 정보를 포착하는 데 어려움을 겪고 있으며, 정확한 진단을 위해 충분한 추론 능력을 갖추지 못하고 있다. 이러한 한계를 극복하기 위해, 고품질의 도메인 지식 주입과 강화 학습을 통해 개발된 전문 치과 MLLM인 DentalGPT를 제안한다. 구체적으로, 진단에 중요한 시각적 특징을 강조하는 상세한 설명과 함께 12만 개 이상의 치과 영상을 결합하여, 지금까지 가장 방대한 치과 영상 다중 모달 데이터셋을 구축하였다. 이는 현재까지 가장 광범위한 치과 영상 집합을 보유한 다중 모달 데이터셋으로서, 해당 데이터셋을 기반으로 훈련함으로써 MLLM의 치과 상태에 대한 시각적 이해 능력이 크게 향상된다. 이후 강화 학습 단계를 거치면서, 다중 모달 복합 추론 능력이 더욱 강화된다. 구강 내 영상 및 팬oramatic 영상 벤치마크, 그리고 의료 VQA 벤치마크의 치과 하위 세트를 대상으로 한 종합적 평가 결과, DentalGPT는 질병 분류 및 치과 VQA 과제에서 뛰어난 성능을 보였으며, 단 70억 파라미터를 가진 모델임에도 불구하고 많은 최신 MLLM들을 상회하는 결과를 기록했다. 이러한 결과는 고품질의 치과 데이터와 단계적 적응 전략의 조합이 능력 있는 전문 치과 MLLM을 구축하는 효과적인 길임을 입증한다.

소스 PDF