Datation de documents à l'aide de réseaux de convolution graphique

La date d'un document est essentielle pour de nombreuses tâches importantes, telles que la recherche de documents, la synthèse, la détection d'événements, etc. Bien que les approches existantes pour ces tâches supposent une connaissance précise de la date du document, cette information n'est pas toujours disponible, en particulier pour des documents arbitraires provenant du Web. La datation des documents est un problème complexe qui nécessite une inférence sur la structure temporelle du document. Les systèmes de datation de documents précédents ont largement reposé sur des caractéristiques conçues manuellement tout en ignorant ces structures internes de document. Dans cet article, nous proposons NeuralDater, une approche de datation de documents basée sur les réseaux de neurones convolutionnels sur graphe (Graph Convolutional Network - GCN) qui exploite conjointement les structures syntaxiques et temporelles du document de manière rigoureuse. À notre connaissance, il s'agit de la première application de l'apprentissage profond au problème de la datation des documents. Grâce à des expérimentations approfondies sur des jeux de données réels, nous constatons que NeuralDater dépasse significativement l'état de l'art en termes de précision absolue (19 points) et relative (45%).