TopicEq: Ein gemeinsames Modell für Themen und mathematische Gleichungen in wissenschaftlichen Texten

Wissenschaftliche Dokumente nutzen sowohl Mathematik als auch Text, um Ideen zu vermitteln. Inspiriert durch die thematische Korrespondenz zwischen mathematischen Gleichungen und den umgebenden Wortkontexten, die in wissenschaftlichen Texten beobachtet wird, schlagen wir ein neues Topic-Modell vor, das mathematische Gleichungen und ihren umgebenden Text gemeinsam generiert (TopicEq). Mithilfe einer Erweiterung des korrelierten Topic-Modells wird der Kontext aus einer Mischung von latenten Themen generiert, während die Gleichung durch einen RNN (Recurrent Neural Network) erzeugt wird, der von den Aktivierungen der latenten Themen abhängt. Um dieses Modell zu testen, erstellen wir ein Korpus mit 400.000 Gleichungs-Kontext-Paaren, die aus einer Vielzahl von wissenschaftlichen Artikeln auf arXiv extrahiert wurden, und passen das Modell unter Verwendung eines variationsautoencoder-basierten Ansatzes an. Die experimentellen Ergebnisse zeigen, dass dieses gemeinsame Modell bestehende Topic-Modelle und Gleichungsmodelle für wissenschaftliche Texte erheblich übertrifft. Darüber hinaus demonstrieren wir qualitativ, dass das Modell die Beziehung zwischen Themen und Mathematik effektiv erfasst, was neue Anwendungen wie themenbewusste Gleichungsgenerierung, Gleichungsthemen-Inferenz und themenbewusste Ausrichtung mathematischer Symbole und Wörter ermöglicht.