17일 전
FinQA: 금융 데이터에 대한 수치 추론을 위한 데이터셋
Zhiyu Chen, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, Matt Beane, Ting-Hao Huang, Bryan Routledge, William Yang Wang

초록
재무 보고서의 방대한 양은 인간이 기업의 재무 정보에 접근하고 분석하는 데 어려움을 초래한다. 또한 강력한 수치적 추론 역시 이 분야에서 고유한 도전 과제에 직면해 있다. 본 연구에서는 재무 데이터에 대한 심층적인 질문에 답하는 데 초점을 맞추어, 방대한 재무 문서 집합의 분석을 자동화하는 것을 목표로 한다. 기존의 일반 도메인 작업과 달리, 금융 도메인은 복잡한 수치적 추론과 다양한 표현 방식의 이해를 포함한다. 분석적 진전을 촉진하기 위해, 금융 전문가들이 작성한 재무 보고서를 기반으로 한 질문-답변 쌍을 포함하는 새로운 대규모 데이터셋인 FinQA를 제안한다. 또한 정답 추론 프로그램을 추가로 주석 처리함으로써 완전한 설명 가능성을 보장한다. 더불어 기준 모델을 제시하고 본 데이터셋에서 포괄적인 실험을 수행한다. 실험 결과는 기존의 인기 있는 대규모 사전 학습 모델들이 전문가 수준의 금융 지식 습득과 해당 지식에 기반한 복잡한 다단계 수치적 추론에서 여전히 큰 격차를 보임을 보여준다. 본 데이터셋은 이 분야에서 처음으로 제안된 것으로, 복잡한 응용 도메인에 대한 새로운 공동체 연구를 가능하게 할 것이다. 데이터셋과 코드는 공개되어 있으며, URL은 \url{https://github.com/czyssrs/FinQA}이다.