2달 전
FinanceBench: 금융 질문 응답을 위한 새로운 벤치마크
Pranab Islam; Anand Kannappan; Douwe Kiela; Rebecca Qian; Nino Scherrer; Bertie Vidgen

초록
FinanceBench는 공개된 금융 질문 응답(QA)에서 LLM(대형 언어 모델)의 성능을 평가하기 위한 최초의 테스트 스위트입니다. 이 테스트 스위트는 상장 기업에 대한 10,231개의 질문과 해당 답변 및 증거 문자열로 구성되어 있습니다. FinanceBench의 질문들은 생태적으로 유효하며 다양한 시나리오를 포괄합니다. 이러한 질문들은 명확하고 간단하게 설계되어 최소 성능 기준을 충족하도록 의도되었습니다. 우리는 FinanceBench에서 150건의 사례 샘플을 사용하여 16개의 최신 모델 구성을(GPT-4-Turbo, Llama2, Claude2 등을 포함하여 벡터 저장소와 긴 컨텍스트 프롬프트를 사용) 테스트하고, 그 답변들을 수동으로 검토(n=2,400)하였습니다. 이 사례들은 오픈 소스로 제공됩니다.우리는 기존 LLM들이 금융 QA에 대해 명백한 제한성을 가지고 있음을 보여주었습니다. 특히, 검색 시스템과 함께 사용된 GPT-4-Turbo는 81%의 질문에 잘못 답하거나 답변을 거부하였습니다. 관련 증거를 긴 컨텍스트 창을 통해 입력하는 등의 강화 기술이 성능을 개선하긴 하지만, 기업 환경에서는 지연 시간 증가로 인해 현실적이지 않으며 대규모 금융 문서를 지원할 수 없습니다. 우리는 모든 검토된 모델이 환각(hallucinations) 등과 같은 약점을 보이며, 이로 인해 기업에서의 활용성이 제한됨을 발견하였습니다.