HyperAIHyperAI
vor 2 Monaten

FENICE: Faktualitätsevaluation von Zusammenfassungen auf der Grundlage natürlichsprachlicher Inferenz und Anspruchsextraktion

Alessandro Scirè; Karim Ghonim; Roberto Navigli
FENICE: Faktualitätsevaluation von Zusammenfassungen auf der Grundlage natürlichsprachlicher Inferenz und Anspruchsextraktion
Abstract

Neuere Fortschritte im Bereich der Textzusammenfassung, insbesondere mit der Einführung von großen Sprachmodellen (LLMs), haben bemerkenswerte Leistungen gezeigt. Dennoch besteht eine erhebliche Herausforderung darin, dass eine beträchtliche Anzahl automatisch generierter Zusammenfassungen faktische Inkonsistenzen aufweisen, wie zum Beispiel Halluzinationen. Als Reaktion auf dieses Problem sind verschiedene Ansätze zur Bewertung der Konsistenz bei Zusammenfassungen entstanden. Diese neu eingeführten Metriken stoßen jedoch auf mehrere Einschränkungen, darunter mangelnde Interpretierbarkeit, Fokus auf kurze Dokumentzusammenfassungen (z.B. Nachrichtenartikel) und rechnerische Unpraktikabilität, insbesondere für LLM-basierte Metriken. Um diese Mängel zu beheben, schlagen wir die Faktualitätsevaluierung von Zusammenfassungen basierend auf natürlichsprachlicher Inferenz und Anspruchsextraktion (FENICE) vor, eine interpretierbarere und effizientere faktualitätsorientierte Metrik. FENICE nutzt eine NLI-basierte Ausrichtung zwischen den Informationen im Quelldokument und einer Reihe atomarer Fakten, als Claims bezeichnet, die aus der Zusammenfassung extrahiert werden. Unsere Metrik setzt einen neuen Stand der Technik in AGGREFACT, dem de facto Standard für die Evaluierung der Faktualität. Darüber hinaus erweitern wir unsere Bewertung durch einen menschlichen Annotationprozess für langformige Zusammenfassungen in einem anspruchsvolleren Szenario. In der Hoffnung, Forschung zur Evaluierung der Faktualität von Zusammenfassungen zu fördern, veröffentlichen wir den Code unserer Metrik sowie unsere Faktualitätsannotationen für langformige Zusammenfassungen unter https://github.com/Babelscape/FENICE.

FENICE: Faktualitätsevaluation von Zusammenfassungen auf der Grundlage natürlichsprachlicher Inferenz und Anspruchsextraktion | Neueste Forschungsarbeiten | HyperAI