HyperAIHyperAI
vor 11 Tagen

Verbesserung des Transformers durch explizite relationale Kodierung zur Lösung mathematischer Probleme

Imanol Schlag, Paul Smolensky, Roland Fernandez, Nebojsa Jojic, Jürgen Schmidhuber, Jianfeng Gao
Verbesserung des Transformers durch explizite relationale Kodierung zur Lösung mathematischer Probleme
Abstract

Wir integrieren Tensor-Produkt-Darstellungen in den Transformer, um die explizite Repräsentation von Beziehungsstrukturen besser zu unterstützen. Unser Tensor-Produkt-Transformer (TP-Transformer) erreicht eine neue State-of-the-Art-Leistung auf dem kürzlich vorgestellten Mathematics Dataset, das 56 Kategorien von freiformulierten mathematischen Textaufgaben enthält. Die zentrale Komponente des Modells ist eine neuartige Aufmerksamkeitsmechanik namens TP-Aufmerksamkeit (TP-Attention), die die Beziehungen zwischen jeder Transformer-Zelle und den anderen Zellen explizit kodiert, von denen Werte durch Aufmerksamkeit abgerufen wurden. Die TP-Aufmerksamkeit geht über eine lineare Kombination der abgerufenen Werte hinaus, verstärkt die Repräsentationsbildung und löst Unsicherheiten auf, die durch mehrere Schichten herkömmlicher Aufmerksamkeit entstehen. Die Aufmerksamkeitskarten des TP-Transformers liefern tiefere Einblicke in die Art und Weise, wie das Modell die anspruchsvollen Aufgaben des Mathematics Datasets lösen kann. Vorgebildete Modelle und der Quellcode werden nach der Veröffentlichung zugänglich gemacht.