수정을 통한 학습: 약한 감독을 활용한 수학적 단어 문제 해결

이전의 수학 단어 문제(MWP)를 해결하기 위한 신경망 솔버는 완전한 감독 하에 학습되며, 다양한 해답을 생성하는 데 실패한다. 본 논문에서는 이러한 문제를 해결하기 위해 MWP 학습을 위한 새로운 약한 감독(weakly-supervised) 패러다임을 제안한다. 제안하는 방법은 최종 답안(annotation)만 요구하며, 하나의 문제에 대해 다양한 해답을 생성할 수 있다. 약한 감독 학습을 강화하기 위해, 기호적 추론(symbolic reasoning)을 통해 신경망의 오해된 인식을 보정하는 새로운 수정을 통한 학습(Learning-by-Fixing, LBF) 프레임워크를 제안한다. 구체적으로, 신경망이 생성한 잘못된 해답 트리에 대해, 수정(fixing) 메커니즘이 오류를 루트 노드에서 리프 노드로 전파하고, 원하는 답을 얻을 수 있는 가장 가능성이 높은 수정 방법을 추론한다. 더 다양한 해답을 생성하기 위해, 트리 정규화(tree regularization) 기법을 도입하여 해답 공간의 효율적인 축소와 탐색을 유도하고, 각 문제에 대해 발견된 다양한 수정 방법을 추적하고 저장하기 위한 메모리 버퍼(memory buffer) 를 설계하였다. Math23K 데이터셋에서 수행한 실험 결과, 제안하는 LBF 프레임워크는 약한 감독 학습 환경에서 강화 학습 기반의 기준 모델들을 크게 능가함을 보였다. 또한, 완전한 감독 학습 방법과 비교해 상위 1개 정확도는 유사한 수준을 기록하였고, 상위 3개 및 5개 정확도에서는 훨씬 우수한 성능을 달성하여, 다양한 해답 생성 능력에서 뛰어난 성능을 입증하였다.