DetIE: Multilinguale offene Informationsextraktion inspiriert durch Objekterkennung

Zustandsbestimmende neuronale Methoden für Open Information Extraction (OpenIE) extrahieren üblicherweise Tripel (oder Tupel) iterativ auf autoregressiver oder prädikatbasierter Weise, um Doppelungen zu vermeiden. In dieser Arbeit präsentieren wir einen alternativen Ansatz, der gleichwertig oder sogar überlegen sein kann. Konkret stellen wir eine neuartige Einzelpass-Methode für OpenIE vor, die sich an Algorithmen zur Objekterkennung aus der Computer Vision orientiert. Wir verwenden eine ordnungsunabhängige Verlustfunktion basierend auf bipartiten Zuordnungen, die eindeutige Vorhersagen erzwingt, sowie eine Transformer-basierte Encoder-only-Architektur für die Sequenzmarkierung. Der vorgeschlagene Ansatz ist schneller und erreicht auf Standardbenchmarks sowohl in Bezug auf Qualitätsmaße als auch auf Inferenzzeit eine überlegene oder vergleichbare Leistung im Vergleich zu Zustandsbestimmungsmodellen. Unser Modell erreicht eine neue Zustandsbestimmung mit 67,7 % F1 auf CaRB, evaluiert als OIE2016, und ist dabei 3,35-mal schneller bei der Inferenz als das vorherige Zustandsbestimmungsmodell. Zudem evaluieren wir die mehrsprachige Version unseres Modells im Zero-Shot-Szenario für zwei Sprachen und stellen eine Strategie zur Generierung synthetischer mehrsprachiger Daten vor, um das Modell für jede spezifische Sprache zu feinabstimmen. In diesem Setup zeigen wir eine Leistungssteigerung um 15 % auf multilingual Re-OIE2016 und erreichen für beide Sprachen, Portugiesisch und Spanisch, 75 % F1. Der Quellcode und die Modelle sind unter https://github.com/sberbank-ai/DetIE verfügbar.