17日前
FinQA:財務データ上の数値推論に関するデータセット
Zhiyu Chen, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, Matt Beane, Ting-Hao Huang, Bryan Routledge, William Yang Wang

要約
財務諸表の膨大な量は、人間が企業の財務情報を効果的に取得・分析することを困難にしている。また、堅牢な数値推論もこの分野において特有の課題に直面している。本研究では、財務データに関する深層的な質問に答えることを目的とし、大規模な財務文書コーパスの分析を自動化することを目指す。既存の一般ドメインにおけるタスクとは異なり、財務ドメインは複雑な数値推論および多様な表現形式の理解を必要とする。分析の進展を促進するため、財務専門家によって作成された財務報告書を対象とした質問・回答ペアを含む新しい大規模データセット「FinQA」を提案する。さらに、完全な説明可能性を確保するため、正解となる推論プログラムも付加的にアノテーションしている。本研究ではベースライン手法を提示し、提案データセット上で包括的な実験を実施した。実験結果から、現在一般的に用いられている大規模事前学習モデルは、専門家の人間と比較して、財務知識の習得およびその知識に基づく複雑な複数ステップにわたる数値推論において著しく劣っていることが明らかになった。本データセットは、この分野で初めてのものであり、複雑な応用領域における新たなコミュニティ研究の発展を可能にするものである。データセットおよびコードは公開されており、GitHubにて利用可能である\url{https://github.com/czyssrs/FinQA}。