Steuerung von Halluzinationen auf Wortebene bei der Datensatz-zu-Text-Generierung

Die Data-to-Text-Generierung (DTG) ist ein Teilgebiet der Natural Language Generation, das darauf abzielt, strukturierte Daten in natürliche Sprachbeschreibungen zu übertragen. In jüngster Zeit wurde dieses Feld durch den Einsatz neuronaler Generatoren stark vorangetrieben, die einerseits hervorragende syntaktische Fähigkeiten aufweisen, ohne dass handgefertigte Pipeline-Strukturen erforderlich sind; andererseits spiegelt die Qualität des generierten Textes direkt die Qualität der Trainingsdaten wider. In realistischen Szenarien liegen jedoch nur unvollkommen abgestimmte Paare aus Struktur und Text vor. Folglich enthalten state-of-the-art neuronale Modelle in ihren Ausgaben häufig irreführende Aussagen – sogenannte Halluzinationen. Die Kontrolle dieses Phänomens stellt heute eine zentrale Herausforderung für die DTG dar und ist das Kernproblem, das in dieser Arbeit adressiert wird.Bisherige Ansätze gehen bei der Behandlung dieses Problems auf Instanzebene vor: Sie nutzen für jedes Tabellen-Referenz-Paar einen Alignmentscore. Im Gegensatz dazu schlagen wir einen fein granuläreren Ansatz vor, der argumentiert, dass Halluzinationen besser auf Wortebene behandelt werden sollten. Konkret präsentieren wir einen Multi-Branch-Decoder, der in der Lage ist, Wortebene-Markierungen zu nutzen, um die relevanten Teile jeder Trainingsinstanz zu lernen. Diese Markierungen werden durch ein einfaches und effizientes Bewertungsverfahren gewonnen, das auf Ko-Kurrenz-Analyse und Dependency-Parsing basiert. Umfangreiche Evaluationen mittels automatisierter Metriken und menschlicher Beurteilung am Standard-WikiBio-Benchmark belegen die Genauigkeit unserer Alignments-Markierungen sowie die Wirksamkeit des vorgeschlagenen Multi-Branch-Decoder. Unser Modell gelingt es, Halluzinationen zu reduzieren und zu kontrollieren, während gleichzeitig Flüssigkeit und Kohärenz der generierten Texte erhalten bleiben. Zusätzliche Experimente an einer verunreinigten Version des ToTTo-Datensatzes zeigen, dass unser Modell auch in sehr geräuschbehafteten Umgebungen erfolgreich eingesetzt werden kann.