Herausforderungen bei der Daten-zu-Dokument-Generierung

Kürzlich haben neurale Modelle bei der Aufgabe, kurze beschreibende Texte auf Basis einer geringen Anzahl von Datenbankdatensätzen zu generieren, erhebliche Fortschritte gemacht. In dieser Arbeit schlagen wir eine leicht schwierigere Aufgabe der Daten-zu-Text-Generierung vor und untersuchen die Effektivität aktueller Ansätze bei dieser Aufgabe. Insbesondere führen wir einen neuen, groß angelegten Korpus ein, der Datenrecords mit beschreibenden Dokumenten verknüpft, schlagen eine Reihe extraktiver Evaluationsmethoden zur Leistungsanalyse vor und erhalten Baseline-Ergebnisse durch die Verwendung aktueller neuronaler Generierungsmethoden. Experimente zeigen, dass diese Modelle flüssigen Text produzieren, jedoch nicht überzeugend menschengenerierte Dokumente nachbilden können. Darüber hinaus übertreffen sogar template-basierte Baselines in einigen Metriken die Leistung dieser neuronalen Modelle, obwohl Kopier- und Rekonstruktionserweiterungen zu bemerkenswerten Verbesserungen führen.请注意,这里有一些术语的翻译:- "neural models" 翻译为 "neuronale Modelle"- "data-to-text generation task" 翻译为 "Aufgabe der Daten-zu-Text-Generierung"- "corpus" 翻译为 "Korpus"- "extractive evaluation methods" 翻译为 "extraktive Evaluationsmethoden"- "Baseline-Ergebnisse" 保持了英文中的“Baseline”一词,因为这是在科技文献中常用的术语- “template-based baselines” 翻译为 “template-basierte Baselines”,同样保留了“template”这一常用术语- “copy-and reconstruction-based extensions” 翻译为 “Kopier- und Rekonstruktionserweiterungen”这些翻译旨在保持专业性和准确性,同时确保语言流畅和正式。