HyperAIHyperAI
vor 2 Monaten

Onologiefreie Erstellung von Datensätzen für die Generierung von Text aus Wissensgraphen im allgemeinen Bereich mithilfe eines großen Sprachmodells

Daehee Kim; Deokhyung Kang; Sangwon Ryu; Gary Geunbae Lee
Onologiefreie Erstellung von Datensätzen für die Generierung von Text aus Wissensgraphen im allgemeinen Bereich mithilfe eines großen Sprachmodells
Abstract

Die Generierung von Wissensgraphen zu Text (G2T) beinhaltet die Umwandlung strukturierter Wissensgraphen in natürliche Sprache. Kürzliche Fortschritte bei vortrainierten Sprachmodellen (PLMs) haben die Leistungsfähigkeit der G2T-Generierung verbessert, jedoch hängt ihre Effektivität von Datensätzen ab, die eine präzise Ausrichtung zwischen Graph und Text bieten. Die Knappheit hochwertiger, allgemeiner G2T-Generierungsdatensätze begrenzt jedoch den Fortschritt in der Forschung zur allgemeinen G2T-Generierung. Um dieses Problem anzugehen, stellen wir den Wikipedia Ontologie-freien Graph-Text-Datensatz (WikiOFGraph) vor, einen neuen groß angelegten G2T-Datensatz, der mittels einer innovativen Methode erzeugt wurde, die große Sprachmodelle (LLMs) und Data-QuestEval nutzt. Unser neuer Datensatz enthält 5,85 Millionen allgemeine Graph-Text-Paare und bietet hohe Konsistenz zwischen Graph und Text ohne auf externe Ontologien zurückzugreifen. Experimentelle Ergebnisse zeigen, dass PLMs, die anhand des WikiOFGraph-Datensatzes feinjustiert wurden, anderen auf anderen Datensätzen trainierten Modellen in verschiedenen Evaluationsmetriken überlegen sind. Unsere Methode erweist sich als skalierbare und effektive Lösung zur Erzeugung hochwertiger G2T-Daten und fördert das Gebiet der G2T-Generierung erheblich.

Onologiefreie Erstellung von Datensätzen für die Generierung von Text aus Wissensgraphen im allgemeinen Bereich mithilfe eines großen Sprachmodells | Neueste Forschungsarbeiten | HyperAI