Command Palette
Search for a command to run...
Extraction d'information zéro-shot comme une traduction texte-à-triple unifiée
Extraction d'information zéro-shot comme une traduction texte-à-triple unifiée
Chenguang Wang Xiao Liu Zui Chen Haoyun Hong Jie Tang Dawn Song
Résumé
Nous avons reformulé une série de tâches d'extraction d'informations sous la forme d'un cadre de traduction texte-vers-triple. Au lieu de résoudre chaque tâche à l’aide de jeux de données et de modèles spécifiques à la tâche, nous formalisons la tâche comme une traduction entre un texte d’entrée spécifique à la tâche et des triples de sortie. En utilisant uniquement l’entrée spécifique à la tâche, nous permettons une traduction agnostique aux tâches, en exploitant les connaissances implicites que possède un modèle linguistique pré-entraîné concernant la tâche. Nous démontrons également qu’une tâche de pré-entraînement simple — prédire quelle information relationnelle correspond à quel texte d’entrée — constitue un moyen efficace de produire des sorties spécifiques à la tâche. Cela permet une transmission zéro-shot de notre cadre aux tâches ultérieures. Nous évaluons les performances en zéro-shot de ce cadre sur des tâches d’extraction d’informations ouverte (OIE2016, NYT, WEB, PENN), de classification de relations (FewRel et TACRED) et de sondage factuel (Google-RE et T-REx). Le modèle se transfère de manière non triviale à la plupart des tâches et se montre souvent compétitif par rapport à des méthodes entièrement supervisées, sans nécessiter d’entraînement spécifique à la tâche. Par exemple, nous surpassons significativement le score F1 de l’extraction d’informations ouverte supervisée, sans avoir recours à son ensemble d’entraînement.