DetIE : Extraction Ouverte d'Information Multilingue Inspirée par la Détection d'Objets

Les méthodes neuroniques de pointe pour l’extraction ouverte d’informations (OpenIE) extraient généralement des triplets (ou tuples) de manière itérative, de façon autoregressive ou basée sur le prédicat, afin d’éviter la duplication. Dans ce travail, nous proposons une approche différente, tout aussi performante ou même plus efficace. Plus précisément, nous présentons une nouvelle méthode à passage unique pour l’OpenIE, inspirée des algorithmes de détection d’objets en vision par ordinateur. Nous utilisons une fonction de perte indépendante de l’ordre fondée sur un appariement bipartite, qui impose des prédictions uniques, ainsi qu’une architecture basée sur un Transformer à encodeur unique pour l’étiquetage de séquences. Cette approche est plus rapide et obtient des performances supérieures ou équivalentes par rapport aux modèles de pointe sur les benchmarks standards, tant en termes de métriques de qualité que de temps d’inférence. Notre modèle atteint un nouveau record de performance de 67,7 % de F1 sur CaRB, évalué selon le protocole OIE2016, tout en étant 3,35 fois plus rapide à l’inférence que les modèles précédemment état de l’art. Nous évaluons également la version multilingue de notre modèle dans un cadre zero-shot pour deux langues, et introduisons une stratégie pour générer des données synthétiques multilingues afin d’ajuster finement le modèle pour chaque langue spécifique. Dans ce cadre, nous observons une amélioration de 15 % sur le benchmark multilingue Re-OIE2016, atteignant un F1 de 75 % pour les langues portugaise et espagnole. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/sberbank-ai/DetIE.