2달 전
BloombergGPT: 금융을 위한 대형 언어 모델
Shijie Wu; Ozan Irsoy; Steven Lu; Vadim Dabravolski; Mark Dredze; Sebastian Gehrmann; Prabhanjan Kambadur; David Rosenberg; Gideon Mann

초록
금융 기술 분야에서 자연어 처리(NLP)의 활용은 다양하고 복잡하며, 감성 분석, 명명된 개체 인식부터 질문 응답까지 다양한 응용 사례가 있습니다. 대형 언어 모델(LLM)은 다양한 작업에서 효과적임이 입증되었지만, 문헌에는 금융 분야에 특화된 LLM에 대한 보고서는 아직 없습니다. 본 연구에서는 500억 개의 매개변수를 가진 금융 데이터를 광범위하게 학습한 언어 모델인 BloombergGPT를 소개합니다. 우리는 블룸버그의 방대한 데이터 소스를 기반으로 3630억 개 토큰의 데이터셋을 구성하였으며, 이는 아마도 가장 큰 특정 영역 데이터셋일 것입니다. 또한 일반 목적 데이터셋에서 3450억 개 토큰을 추가하여 데이터셋을 확장했습니다. 우리는 표준 LLM 벤치마크, 오픈 금융 벤치마크, 그리고 우리의 의도된 사용을 가장 정확히 반영하는 내부 벤치마크 세트에서 BloombergGPT를 검증하였습니다. 혼합 데이터셋 학습 덕분에 BloombergGPT는 일반 LLM 벤치마크 성능을 저하시키지 않으면서 금융 작업에서 현존하는 모델들보다 크게 우수한 성능을 보였습니다. 또한, 모델링 선택, 학습 과정, 평가 방법론에 대해 설명합니다. 우리는 BloombergGPT의 학습 경험을 상세히 기록한 '학습 연대기'(Appendix C)를 공개합니다.