
초록
HuggingFace Datasets Hub는 수천 개의 데이터셋을 호스팅하여 언어 모델 훈련 및 평가에 흥미로운 기회를 제공합니다. 그러나 특정 작업 유형용 데이터셋은 종종 다른 스키마를 가지고 있어 조화를 이루는 것이 어려울 수 있습니다. 다중 작업 훈련 또는 평가는 데이터를 작업 템플릿에 맞게 처리하는 수작업이 필요합니다. 여러 이니셔티브가 독립적으로 이 문제를 해결하기 위해 조화된 데이터셋을 출시하거나 일관된 형식으로 데이터셋을 전처리할 수 있는 조화 코드를 제공하고 있습니다. 우리는 이전 전처리 노력에서 열 이름 매핑과 구조화된 열에서 특정 하위 필드를 추출하는 등의 패턴을 파악하였습니다. 이를 바탕으로 주석이 비구조화된 코드 내에 숨겨지지 않고 완전히 노출되도록 하는 구조화된 주석 프레임워크를 제안합니다. 우리는 500개 이상의 영어 작업용 데이터셋 주석 프레임워크와 데이터셋 주석을 출시하였습니다(\url{https://github.com/sileod/tasksource}). 이러한 주석에는 모든 데이터셋에서 입력이나 라벨로 사용될 열의 이름 등 메타데이터가 포함되어 있으며, 우리의 프레임워크가 활용되든 그렇지 않든 미래의 데이터셋 전처리 시간을 절약할 수 있습니다. 우리는 모든 tasksource 작업에서 다중 작업 텍스트 인코더를 미세 조정하여 외부 평가에서 동일한 크기의 공개적으로 이용 가능한 모든 텍스트 인코더보다 우수한 성능을 보였습니다.