2달 전

TopicEq: 과학 문헌을 위한 주제와 수학적 방정식의 통합 모델

Michihiro Yasunaga; John Lafferty
TopicEq: 과학 문헌을 위한 주제와 수학적 방정식의 통합 모델
초록

과학 문서는 아이디어를 전달하기 위해 수학과 텍스트를 모두 활용합니다. 과학적 텍스트에서 관찰된 수학식과 단어 맥락 간의 주제적 상관관계에 착안하여, 우리는 수학식과 그 주변 텍스트를 동시에 생성하는 새로운 주제 모델(TopicEq)을 제안합니다. 연관 주제 모델의 확장을 사용하여, 맥락은 잠재적인 주제들의 혼합에서 생성되며, 방정식은 잠재적인 주제 활성화에 의존하는 RNN(순환 신경망)에 의해 생성됩니다. 이 모델을 실험하기 위해, arXiv에서 추출한 40만 개의 방정식-맥락 쌍으로 구성된 말뭉치를 만들고, 변분 오토인코더 접근법을 사용하여 모델을 적합시켰습니다. 실험 결과는 이 결합 모델이 기존의 과학적 텍스트용 주제 모델 및 방정식 모델보다 크게 우수함을 보여줍니다. 또한, 우리는 질적으로 이 모델이 주제와 수학 사이의 관계를 효과적으로 포착함을 입증하였으며, 이를 통해 주제 인지 방정식 생성, 방정식 주제 추론, 그리고 수학 기호와 단어 간의 주제 인지 정렬 등의 새로운 응용 분야가 가능해졌음을 보여주었습니다.

TopicEq: 과학 문헌을 위한 주제와 수학적 방정식의 통합 모델 | 최신 연구 논문 | HyperAI초신경