HyperAIHyperAI
vor 17 Tagen

BenchIE: Ein Framework zur mehrfachen, faktengestützten Evaluation der offenen Informationsgewinnung

Kiril Gashteovski, Mingying Yu, Bhushan Kotnis, Carolin Lawrence, Mathias Niepert, Goran Glavaš
BenchIE: Ein Framework zur mehrfachen, faktengestützten Evaluation der offenen Informationsgewinnung
Abstract

Intrinsische Evaluierungen von Open Information Extraction (OIE)-Systemen werden entweder manuell durchgeführt – wobei menschliche Beurteiler die Korrektheit der Extraktionen bewerten – oder automatisch anhand standardisierter Benchmarks. Letztere sind zwar deutlich kosteneffizienter, jedoch weniger zuverlässig, hauptsächlich aufgrund der Unvollständigkeit bestehender OIE-Benchmarks: Die Ground-Truth-Extraktionen enthalten nicht alle akzeptablen Varianten desselben Fakts, was zu einer unzuverlässigen Beurteilung der Modellleistung führt. Zudem sind die derzeit verfügbaren OIE-Benchmarks ausschließlich für Englisch verfügbar. In dieser Arbeit stellen wir BenchIE vor: ein Benchmark- und Evaluierungsframework zur umfassenden Bewertung von OIE-Systemen für Englisch, Chinesisch und Deutsch. Im Gegensatz zu bestehenden OIE-Benchmarks basiert BenchIE auf Fakten, d. h., es berücksichtigt die informationsäquivalente Natur von Extraktionen: Unser Gold-Standard besteht aus Faktensynsets, also Clustern, in denen alle akzeptablen Oberflächenformen desselben Fakts erschöpfend aufgelistet sind. Zudem berücksichtigen wir häufige Anwendungen von OIE in nachgeschalteten Prozessen und gestalten BenchIE facettenreich; d. h., wir erstellen Benchmark-Varianten, die sich auf verschiedene Aspekte der OIE-Evaluation konzentrieren, beispielsweise auf Kompaktheit oder Minimalkriterien von Extraktionen. Wir bewerten mehrere state-of-the-art-OIE-Systeme mit Hilfe von BenchIE und zeigen, dass diese Systeme signifikant weniger effektiv sind, als es bisherige OIE-Benchmarks nahelegen. BenchIE (Daten und Evaluierungscode) stellen wir öffentlich auf https://github.com/gkiril/benchie zur Verfügung.

BenchIE: Ein Framework zur mehrfachen, faktengestützten Evaluation der offenen Informationsgewinnung | Neueste Forschungsarbeiten | HyperAI