Automated Theorem Proving On Minif2F Valid

評価指標

Pass@64

評価結果

このベンチマークにおける各モデルのパフォーマンス結果