BERT obtient une date : Introduction des Transformers au marquage temporel

Les expressions temporelles dans le texte jouent un rôle significatif dans la compréhension de la langue, et leur identification correcte est fondamentale pour divers systèmes de recherche et de traitement du langage naturel. Les travaux précédents ont progressivement évolué des approches basées sur des règles vers des architectures neuronales, capables d'étiqueter les expressions avec une plus grande précision. Cependant, les modèles neuronaux ne peuvent pas encore distinguer entre différents types d'expressions au même niveau que leurs homologues basés sur des règles. Dans cette étude, nous visons à identifier l'architecture de transformateur la plus appropriée pour l'étiquetage temporel conjoint et la classification des types, ainsi qu'à examiner l'effet de l'entraînement semi-supervisé sur les performances de ces systèmes. Sur la base de notre analyse des variantes de classification de jetons et des architectures encodeur-décodeur, nous présentons un modèle encodeur-décodeur de transformateur utilisant le modèle linguistique RoBERTa comme notre système le mieux performant. En complétant les ressources d'entraînement avec des données faiblement étiquetées provenant des systèmes basés sur des règles, notre modèle dépasse les travaux antérieurs en matière d'étiquetage temporel et de classification des types, en particulier pour les classes rares. Notre code et nos expériences pré-entraînées sont disponibles à l'adresse suivante : https://github.com/satya77/Transformer_Temporal_Tagger