GTR-LSTM : Un encodeur triple pour la génération de phrases à partir de données RDF

Une base de connaissances est un grand dépôt de faits, principalement représentés sous la forme de triples RDF, chacun composé d’un sujet, d’un prédicat (relation) et d’un objet. La représentation en triples RDF offre une interface simple pour permettre aux applications d’accéder aux faits. Toutefois, cette représentation n’est pas formulée sous une forme de langue naturelle, ce qui rend sa compréhension difficile pour les humains. Nous abordons ce problème en proposant un système permettant de traduire un ensemble de triples RDF en phrases naturelles, basé sur un cadre encodeur-décodeur. Afin de préserver autant d’information que possible provenant des triples RDF, nous proposons un nouvel encodeur de triples fondé sur les graphes. Cet encodeur encode non seulement les éléments des triples, mais aussi les relations à l’intérieur de chaque triple ainsi que les relations entre les triples. Les résultats expérimentaux montrent que l’encodeur proposé améliore de manière cohérente les modèles de base, avec des gains respectifs de 17,6 %, 6,0 % et 16,4 % selon trois métriques courantes : BLEU, METEOR et TER.