17日前
APOLLO:長文数理推論向け最適化訓練手法
Jiashuo Sun, Hang Zhang, Chen Lin, Xiangdong Su, Yeyun Gong, Jian Guo

要約
財務分析における長文数理推論は、与えられた質問に対して正しい答えを計算するための推論プログラムを生成することを目的としている。従来の手法は、リトリーバー・ジェネレーター枠組みを採用しており、リトリーバーが長文ドキュメントから重要な事実を抽出し、ジェネレーターが抽出された事実に基づいて推論プログラムを生成する。しかし、これらの手法は数値を含む事実と含まない事実がもたらす貢献度の違いを考慮せず、すべての事実を同等に扱っていた。また、教師あり学習の下でプログラムの整合性が無視されたため、訓練精度と多様性が低くなるという問題があった。こうした課題を解決するために、本研究では長文数理推論フレームワークを改善するためのAPOLLOを提案する。リトリーバーにおいては、数値に敏感なネガティブサンプリング戦略を採用することで、重要な数値的事実をより明確に識別できるようにした。ジェネレーターにおいては、プログラム実行結果の整合性に基づいて、整合性を考慮した強化学習とターゲットプログラムの拡張戦略を設計した。FinQAおよびConvFinQAのリーダーボードにおける実験結果から、本手法の有効性が検証され、新たな最先端(SOTA)性能を達成した。