11일 전
수학 문제 해결을 위한 명시적 관계 인코딩을 통한 Transformer의 성능 향상
Imanol Schlag, Paul Smolensky, Roland Fernandez, Nebojsa Jojic, Jürgen Schmidhuber, Jianfeng Gao

초록
우리는 관계 구조를 명시적으로 표현하는 데 더 효과적으로 기여할 수 있도록 텐서 곱 표현(Tensor-Product Representation)을 트랜스포머 내에 통합한다. 본 연구에서 제안하는 텐서 곱 트랜스포머(TP-Transformer)는 최근 소개된 56개의 자유형 수학 문제 유형을 포함하는 수학 데이터셋에서 새로운 최고 성능을 달성하였다. 이 모델의 핵심 구성 요소는 TP-Attention라고 불리는 새로운 어텐션 메커니즘으로, 각 트랜스포머 셀과 어텐션을 통해 값이 가져와진 다른 셀 간의 관계를 명시적으로 인코딩한다. TP-Attention는 단순한 값들의 선형 조합을 넘어서 표현 학습을 강화하고, 표준 어텐션의 다중 레이어에 의해 유발되는 모호성을 해결한다. TP-Transformer의 어텐션 맵은 이 모델이 수학 데이터셋의 도전적인 문제들을 어떻게 해결하는지에 대한 더 깊은 통찰을 제공한다. 사전 학습된 모델과 코드는 논문 게재 후 공개될 예정이다.