17일 전

기초 모델이 데이터를 관리할 수 있을까?

Avanika Narayan, Ines Chami, Laurel Orr, Simran Arora, Christopher Ré
기초 모델이 데이터를 관리할 수 있을까?
초록

기초 모델(Foundation Models, FMs)은 대규모 데이터 코퍼스를 기반으로 훈련된 모델로, 매우 큰 규모에서 특정 작업에 대한 미세조정 없이도 새로운 작업에 일반화할 수 있다. 이러한 모델의 크기가 계속 증가함에 따라, 언어 및 이미지 작업에서 모델이 수행할 수 있는 범위를 끊임없이 확장하는 혁신이 이루어지고 있다. 본 논문은 FMs의 탐색이 부족한 영역인, 데이터 정제 및 통합과 같은 전통적인 데이터 작업에 대해 이해하고자 한다. 개념 증명을 위해 다섯 가지 데이터 정제 및 통합 작업을 프롬프팅 작업으로 재정의하고, FMs의 성능을 평가하였다. 그 결과, FMs는 이러한 데이터 작업에 대해 훈련되지 않았음에도 불구하고, 일반화 능력을 발휘하여 최신 기술 수준(SoTA)의 성능을 달성함을 확인하였다. 본 연구에서는 개인정보 및 도메인 특화 데이터 처리에 대한 도전 과제와, 비전문가가 쉽게 접근할 수 있는 데이터 관리 시스템 구축을 위한 기회를 제시한다. 본 연구의 코드와 실험 자료는 다음과 같은 주소에서 공개되어 있다: https://github.com/HazyResearch/fm_data_tasks.