17일 전

코퍼스 다양성이 금융 분야 사전 학습된 언어 모델에 미치는 영향 탐색

Jaeyoung Choe, Keonwoong Noh, Nayeon Kim, Seyun Ahn, Woohwan Jung
코퍼스 다양성이 금융 분야 사전 학습된 언어 모델에 미치는 영향 탐색
초록

최근 몇 년 동안 다양한 도메인 전용 사전 학습 언어 모델(PLM)이 제안되었으며, 생물의학, 과학, 임상 등 전문 분야에서 일반 도메인 PLM보다 뛰어난 성능을 보였다. 또한 재무 데이터 분석의 높은 경제적 영향력으로 인해 재무 전용 PLM에 대한 연구도 활발히 이루어지고 있다. 그러나 우리는 현재 존재하는 재무 PLM들이 충분히 다양한 재무 데이터를 기반으로 사전 학습되지 않았다는 점을 발견하였다. 이러한 다양한 훈련 데이터의 부족은 일반화 성능 저하로 이어지며, 결과적으로 BERT와 같은 일반 목적 PLM이 많은 하류 작업에서 재무 PLM보다 더 뛰어난 성능을 보이게 된다. 이 문제를 해결하기 위해 우리는 광범위한 재무 코퍼스를 수집하고, 이러한 다양한 데이터셋을 기반으로 재무 언어 모델(FiLM)을 훈련시켰다. 실험 결과를 통해 FiLM이 기존 재무 PLM뿐 아니라 일반 도메인 PLM 또한 초월함을 확인할 수 있었다. 더불어, 새로운 코퍼스 그룹에 대해 적용할 경우에도 이 성능 향상이 달성될 수 있음을 실증적으로 입증하였다.