Selbsttraining aus Selbstgedächtnis in der Daten-zu-Text-Generierung

Dieses Papier stellt ein neues Trainingsmodell vor, das als Selbst-Training aus Selbst-Speicher (Self-Training from Self-Memory, STSM) im Bereich der Daten-zu-Text-Generierung (Data-to-Text Generation, DTG) bezeichnet wird. Dieses Modell ermöglicht es, auf Teilmengen selbst zu trainieren, die entweder direkt aus den trainierten Modellen oder neuen Daten abgeleitete Selbst-Speicher umfassen. Die Qualität des Selbst-Speichers wird durch zwei Modelle validiert: Daten-zu-Text (Data-to-Text, D2T) und Text-zu-Daten (Text-to-Data, T2D), unter zwei vordefinierten Bedingungen: (1) die Anwesenheit aller Quellwerte in den Ausgaben des D2T-Modells und (2) die Fähigkeit, die Ausgaben des T2D-Modells wieder in Quelldaten umzuwandeln. Wir verwenden einen gierigen Algorithmus (greedy algorithm), um kürzere D2T-Ausgaben zu generieren, sofern sie alle Quellwerte enthalten. Anschließend nutzen wir das T2D-Modell, um zu bestätigen, dass diese Ausgaben Eingabebeziehungen erfassen können, indem wir ihre Fähigkeit demonstrieren, Text zurück in Daten zu konvertieren. Mit 30 % des Datensatzes können wir das D2T-Modell mit einer wettbewerbsfähigen Leistung im Vergleich zum vollständigen Training im gleichen Setup trainieren. Wir testen unser Modell anhand zweier Datensätze: E2E NLG und DART. STSM verleiht dem D2T-Modell eine Generalisierungsfähigkeit aus seinem Teilmenge-Speicher und reduziert gleichzeitig das Volumen der Trainingsdaten. Letztlich erwarten wir, dass dieser Beitrag Lösungen für kontinuierliches Lernen bietet, die sich an neue Trainingsdaten anpassen und diese als Form von Selbst-Speicher in DTG-Aufgaben integrieren. Der erstellte Datensatz ist öffentlich verfügbar unter: https://github.com/hoangthangta/STSM.