HyperAIHyperAI
vor 2 Monaten

KEPLER: Ein vereinheitlichtes Modell für Wissensrepräsentation und prätrainierte Sprachdarstellung

Xiaozhi Wang; Tianyu Gao; Zhaocheng Zhu; Zhengyan Zhang; Zhiyuan Liu; Juanzi Li; Jian Tang
KEPLER: Ein vereinheitlichtes Modell für Wissensrepräsentation und prätrainierte Sprachdarstellung
Abstract

Vorab trainierte Sprachrepräsentationsmodelle (PLMs) können Faktenwissen aus Texten nicht gut erfassen. Im Gegensatz dazu können Wissensembedding-Methoden (KE) die relationalen Fakten in Wissensgraphen (KGs) durch informativere Entitäts-Embeddings effektiv darstellen, aber herkömmliche KE-Modelle können das reichhaltige textuelle Informationsangebot nicht vollständig nutzen. In dieser Arbeit schlagen wir ein vereintes Modell für Wissensembedding und vorab trainierte Sprachrepräsentation (KEPLER) vor, das nicht nur die Integration von Faktenwissen in PLMs verbessert, sondern auch durch starke PLMs eine effektive, textverstärkte KE erzeugt. In KEPLER kodieren wir textuelle Entitätsbeschreibungen mit einem PLM als ihre Embeddings und optimieren dann die Ziele des Wissensembeddings und der Sprachmodellierung gemeinsam. Experimentelle Ergebnisse zeigen, dass KEPLER auf verschiedenen NLP-Aufgaben Spitzenleistungen erzielt und auch als induktives KE-Modell bei der Vorhersage von KG-Verbindungen hervorragend abschneidet. Darüber hinaus haben wir Wikidata5M erstellt, einen groß angelegten KG-Datensatz mit alignierten Entitätsbeschreibungen, um das Vorab-Training und die Bewertung von KEPLER zu ermöglichen. Wir evaluieren darauf zudem die neuesten KE-Methoden und stellen sie als neuen Benchmark für groß angelegte KGs, induktives KE und KGs mit Text zur Verfügung. Der Quellcode kann unter https://github.com/THU-KEG/KEPLER abgerufen werden.

KEPLER: Ein vereinheitlichtes Modell für Wissensrepräsentation und prätrainierte Sprachdarstellung | Neueste Forschungsarbeiten | HyperAI