17日前
GeoQA:マルチモーダル数値推論への向けての幾何学的質問応答ベンチマーク
Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric P. Xing, Liang Lin

要約
自動数学問題解決は、長年にわたりAIのベンチマークとして注目を集めている分野である。本研究では、テキスト記述、視覚的図示、定理知識の包括的理解を要する幾何学的問題の解決に焦点を当てる。しかし、従来の手法は手動で設計されたルールに強く依存しており、小規模なデータセットでのみ評価されてきた。そこで本研究では、4,998問の幾何学的問題と、それらの問題の解法プロセスを示すアノテーション付きプログラムを含む、幾何学的質問応答データセット「GeoQA」を提案する。既存の公開データセット「GeoS」と比較して、GeoQAは25倍の規模であり、プログラムアノテーションにより、今後の明示的かつ説明可能な数値推論に関する研究の実践的な検証環境を提供する。さらに、マルチモーダル情報を包括的に解析し、解釈可能なプログラムを生成することで幾何学的問題を解決する「ニューラル幾何学ソルバー(Neural Geometric Solver, NGS)」を導入する。また、NGSに複数の自己教師付き補助タスクを追加し、マルチモーダルな意味表現の強化を図る。GeoQA上での広範な実験により、提案するNGSおよび補助タスクの有効性が検証された。ただし、依然として人間の性能には大幅に及ばない結果となっており、今後の研究に大きな余地が残されている。本研究のベンチマークおよびコードは、https://github.com/chen-judge/GeoQA にて公開している。