ViT5: Vorgefertigter Text-zu-Text-Transformer für die Erzeugung von Vietnamesisch

Wir stellen ViT5 vor, ein vortrainiertes Transformer-basiertes Encoder-Decoder-Modell für die vietnamesische Sprache. Mit einem T5-artigen selbstüberwachten Vortraining wird ViT5 auf einem großen Korpus hochwertiger und vielfältiger vietnamesischer Texte trainiert. Wir evaluieren ViT5 anhand von zwei Downstream-Aufgaben zur Textgenerierung: Abstraktiver Textzusammenfassung und Erkennung benannter Entitäten (Named Entity Recognition). Obwohl die abstraktive Textzusammenfassung dank der reichen und umfangreichen Datenquellen für die englische Sprache weitgehend untersucht wurde, gab es bisher nur minimale Forschungen zu dieser Aufgabe im Bereich der vietnamesischen Sprache, einer Sprache mit deutlich weniger Ressourcen. In dieser Arbeit führen wir umfassende Experimente sowohl zur abstraktiven Zusammenfassung als auch zur Erkennung benannter Entitäten in vietnamesischen Texten durch und vergleichen die Leistung von ViT5 mit vielen anderen vortrainierten Transformer-basierten Encoder-Decoder-Modellen. Unsere Experimente zeigen, dass ViT5 bestehende Modelle erheblich übertrifft und den aktuellen Stand der Technik in der vietnamesischen Textzusammenfassung erreicht. Bei der Aufgabe der Erkennung benannter Entitäten ist ViT5 wettbewerbsfähig gegenüber den bisher besten Ergebnissen von vortrainierten encoderbasierten Transformer-Modellen. Eine weitere Analyse verdeutlicht die Bedeutung der Kontextlänge während des selbstüberwachten Vortrainings für die Downstream-Leistung unter verschiedenen Einstellungen.