BenchIE : Un cadre pour l'évaluation multi-facette de l'extraction ouverte de faits basée sur des faits

Les évaluations intrinsèques des systèmes de extraction d'informations ouverte (OIE) sont effectuées soit manuellement — par des évaluateurs humains qui jugent la correction des extraits — soit automatiquement, sur des benchmarks standardisés. Ce dernier approche, bien qu’extrêmement plus économique, est moins fiable, principalement en raison de l’incomplétude des benchmarks OIE existants : les extraits de vérité terrain ne comprennent pas toutes les variantes acceptables d’un même fait, ce qui conduit à une évaluation peu fiable des performances des modèles. En outre, les benchmarks OIE actuels ne sont disponibles qu’en anglais. Dans ce travail, nous introduisons BenchIE : un benchmark et un cadre d’évaluation pour une évaluation complète des systèmes OIE en anglais, chinois et allemand. Contrairement aux benchmarks existants, BenchIE est fondé sur les faits, c’est-à-dire qu’il prend en compte l’équivalence informationnelle des extraits : notre référence orale repose sur des synsets de faits, des regroupements dans lesquels nous listons de manière exhaustive toutes les formes superficielles acceptables d’un même fait. En outre, en tenant compte des applications courantes en aval des systèmes OIE, nous avons conçu BenchIE comme polyvalent : nous avons créé des variantes de benchmark axées sur différentes facettes de l’évaluation OIE, par exemple la compacité ou la minimalité des extraits. Nous avons évalué plusieurs systèmes OIE de pointe à l’aide de BenchIE et démontré qu’ils sont nettement moins performants que ce que suggèrent les benchmarks existants. Nous mettons BenchIE (données et code d’évaluation) à disposition publiquement sur https://github.com/gkiril/benchie.