FETA: 전문 과제 응용을 위한 기반 모델의 전문화 방향

기초 모델(Foundation Models, FMs)은 제로샷 학습, 높은 정밀도의 데이터 생성, 도메인 외 일반화 등 전례 없는 능력을 보여주고 있다. 그러나 본 논문에서 보여주듯이, FMs는 전문 작업(예: 언어 질의를 통해 자동차 사용설명서나 기술 도면을 검색하는 것)에 있어서는 여전히 뛰어난 성능을 보이지 못한다. 이러한 작업은 기초 모델의 사전 훈련에 사용된 거대한 데이터셋의 분포에서 관측되지 않았거나, 긴 꼬리(long-tail) 영역에 속하는 데이터를 다루기 때문이다. 이는 전문 작업에 대해 명시적으로 평가하고 미세조정(finetune)할 필요성이 있음을 강조하며, 실질적인 현실 세계 응용에서 가장 흔하게 등장할 것으로 보이는 작업들임을 시사한다. 본 논문에서는 기초 모델이 기술 문서를 이해하도록 가르치는 것을 핵심으로 하여, 그래픽 도면과 해당 언어 설명 간의 매칭을 학습하는 방식으로 구성된, 세계 최초의 FETA 벤치마크를 제안한다. FETA 벤치마크는 공개된 자동차 사용설명서 및 판매 카탈로그 브로셔에서 텍스트-이미지 및 이미지-텍스트 검색 작업에 초점을 맞추고 있다. FETA는 완전 자동화된 annotation 추출 절차를 갖추고 있어(수락 후 코드 공개 예정), 향후 더 다양한 문서 유형과 응용 분야로의 확장이 용이하다. 본 연구에서 개발한 자동 annotation은 인간이 수작업으로 정제한 annotation을 기반으로 계산된 지표와 일관성을 보이는 자동화된 성능 평가 지표를 제공한다(동시에 라벨 데이터도 공개). 본 연구는 FETA에서 다양한 기초 모델에 대한 여러 기준 모델과 분석을 제공하며, FM 공동체에게 매우 유용할 것으로 기대되는 몇 가지 흥미로운 발견을 도출한다. 이를 통해 기초 모델이 현재 일반적인 객체 중심 표준 벤치마크에 의해 간과되고 있는 실질적인 전문 작업에 대한 현실 적용을 위한 길을 열어줄 것으로 기대된다.