HTLM: Hyper-Text Vortrainierung und Prompting von Sprachmodellen

Wir stellen HTLM vor, ein Hyper-Text-Sprachmodell, das auf einer großskaligen Web-Crawl-Datenmenge trainiert wurde. Die Modellierung von Hyper-Text bietet mehrere Vorteile: (1) Er ist leicht in großer Menge zu sammeln, (2) er liefert reichhaltige dokumentenübergreifende und auf die Endaufgabe bezogene Aufsicht (z. B. enthalten Attribute wie „class“ und „id“ oft Informationen zur Dokumentkategorie), und (3) er ermöglicht neue strukturierte Prompting-Strategien, die die etablierten Semantiken von HTML nutzen (z. B. die Null-Shot-Zusammenfassung durch Ausfüllen von Titel-Tags für eine Webseite, die den Eingabetext enthält). Wir zeigen, dass das Vortrainieren mit einem BART-ähnlichen Noise-Entfernungs-Loss direkt auf vereinfachtem HTML eine hochwirksame Übertragung für eine Vielzahl von Endaufgaben und unterschiedlichen Aufsichtsniveaus ermöglicht. HTLM erreicht oder übertrifft die Leistung vergleichbar großer reiner Text-Sprachmodelle sowohl bei Null-Shot-Prompting als auch bei Fine-Tuning für Klassifizierungsbenchmark-Aufgaben, während es zudem neue Sollwerte für die Null-Shot-Zusammenfassung erreicht. Zudem stellen wir fest, dass Hyper-Text-Prompts für HTLM im Hinblick auf Daten-Effizienz mehr Wert bieten als herkömmliche Text-Prompts für bestehende Sprachmodelle, und dass HTLM äußerst effektiv in der automatischen Generierung eigener Prompts ist, indem es einfach die wahrscheinlichste Hyper-Text-Formatierung für verfügbare Trainingsdaten erzeugt. Wir werden sämtlichen Code und die Modelle zur Unterstützung zukünftiger HTLM-Forschung veröffentlichen.