HyperAIHyperAI
il y a 17 jours

Verbalisation des étiquettes et entailment pour une extraction de relations zéro- et peu-forte efficace

Oscar Sainz, Oier Lopez de Lacalle, Gorka Labaka, Ander Barrena, Eneko Agirre
Verbalisation des étiquettes et entailment pour une extraction de relations zéro- et peu-forte efficace
Résumé

Les systèmes d'extraction de relations nécessitent un grand nombre d'exemples étiquetés, dont l'annotation est coûteuse. Dans ce travail, nous reformulons la tâche d'extraction de relations comme une tâche d'entraînement textuel, en utilisant des verbalisations simples et manuelles des relations, produites en moins de 15 minutes par relation. Le système repose sur un moteur d'entraînement textuel pré-entraîné, utilisé tel quel (sans exemple d'entraînement, zéro-shot) ou ultérieurement finement ajusté sur des exemples étiquetés (peu d'exemples ou entraînement complet). Dans nos expériences sur TACRED, nous atteignons un F1 de 63 % en zéro-shot, 69 % avec seulement 16 exemples par relation (soit une amélioration de 17 points par rapport au meilleur système supervisé dans les mêmes conditions), et seulement 4 points en dessous de l'état de l'art (qui utilise 20 fois plus de données d'entraînement). Nous montrons également que les performances peuvent être significativement améliorées en utilisant des modèles d'entraînement textuel plus volumineux, avec une progression pouvant atteindre 12 points en zéro-shot, permettant ainsi de rapporter les meilleurs résultats à ce jour sur TACRED lorsque le modèle est entièrement entraîné. L'analyse révèle que nos systèmes peu étiquetés sont particulièrement efficaces pour distinguer entre relations, et que la différence de performance dans les régimes à faible données provient principalement de la capacité à identifier les cas sans relation.