16일 전

FETA: 전문 과제 응용을 위한 기반 모델의 전문화 방향

Amit Alfassy, Assaf Arbelle, Oshri Halimi, Sivan Harary, Roei Herzig, Eli Schwartz, Rameswar Panda, Michele Dolfi, Christoph Auer, Kate Saenko, PeterW. J. Staar, Rogerio Feris, Leonid Karlinsky
FETA: 전문 과제 응용을 위한 기반 모델의 전문화 방향
초록

기초 모델(Foundation Models, FMs)은 제로샷 학습, 높은 정밀도의 데이터 생성, 도메인 외 일반화 등 전례 없는 능력을 보여주고 있다. 그러나 본 논문에서 보여주듯이, FMs는 전문 작업(예: 언어 질의를 통해 자동차 사용설명서나 기술 도면을 검색하는 것)에 있어서는 여전히 뛰어난 성능을 보이지 못한다. 이러한 작업은 기초 모델의 사전 훈련에 사용된 거대한 데이터셋의 분포에서 관측되지 않았거나, 긴 꼬리(long-tail) 영역에 속하는 데이터를 다루기 때문이다. 이는 전문 작업에 대해 명시적으로 평가하고 미세조정(finetune)할 필요성이 있음을 강조하며, 실질적인 현실 세계 응용에서 가장 흔하게 등장할 것으로 보이는 작업들임을 시사한다. 본 논문에서는 기초 모델이 기술 문서를 이해하도록 가르치는 것을 핵심으로 하여, 그래픽 도면과 해당 언어 설명 간의 매칭을 학습하는 방식으로 구성된, 세계 최초의 FETA 벤치마크를 제안한다. FETA 벤치마크는 공개된 자동차 사용설명서 및 판매 카탈로그 브로셔에서 텍스트-이미지 및 이미지-텍스트 검색 작업에 초점을 맞추고 있다. FETA는 완전 자동화된 annotation 추출 절차를 갖추고 있어(수락 후 코드 공개 예정), 향후 더 다양한 문서 유형과 응용 분야로의 확장이 용이하다. 본 연구에서 개발한 자동 annotation은 인간이 수작업으로 정제한 annotation을 기반으로 계산된 지표와 일관성을 보이는 자동화된 성능 평가 지표를 제공한다(동시에 라벨 데이터도 공개). 본 연구는 FETA에서 다양한 기초 모델에 대한 여러 기준 모델과 분석을 제공하며, FM 공동체에게 매우 유용할 것으로 기대되는 몇 가지 흥미로운 발견을 도출한다. 이를 통해 기초 모델이 현재 일반적인 객체 중심 표준 벤치마크에 의해 간과되고 있는 실질적인 전문 작업에 대한 현실 적용을 위한 길을 열어줄 것으로 기대된다.

FETA: 전문 과제 응용을 위한 기반 모델의 전문화 방향 | 최신 연구 논문 | HyperAI초신경