17일 전

LlamBERT: 자연어 처리에서 대규모 저비용 데이터 주석 처리

Bálint Csanády, Lajos Muzsai, Péter Vedres, Zoltán Nádasdy, András Lukács
LlamBERT: 자연어 처리에서 대규모 저비용 데이터 주석 처리
초록

대규모 언어 모델(Large Language Models, LLMs), 예를 들어 GPT-4 및 Llama 2와 같은 모델들은 자연어 처리(Natural Language Processing, NLP) 분야의 다양한 작업에서 뛰어난 성능을 보여주고 있다. 그럼에도 불구하고 이러한 모델의 사용과 관련된 높은 비용이 여전히 도전 과제로 남아 있다. 본 연구에서는 대규모 비라벨 데이터베이스의 소규모 서브셋에 대해 LLM을 활용하여 레이블링을 수행하고, 그 결과를 기반으로 BERT 및 RoBERTa와 같은 트랜스포머 인코더 모델을 미세조정하는 하이브리드 접근법인 LlamBERT를 제안한다. 이 전략은 IMDb 리뷰 데이터셋과 UMLS 메타테사우루스(Meta-Thesaurus)라는 두 가지 다양성 있는 데이터셋을 대상으로 평가되었다. 실험 결과, LlamBERT 접근법은 정확도에 약간의 희생을 감수하지만, 비용 효율성 측면에서 훨씬 우수한 성능을 나타냈다.