TSDAE: Verwendung eines transformerbasierten sequentiellen Denoising-Autoencoders für das unlabeled-Satz-Embedding-Lernen

Die Lernung von Satz-Embeddings erfordert oft eine große Menge an gelabelten Daten. Für die meisten Aufgaben und Domänen ist jedoch gelabelte Daten selten verfügbar, und deren Erstellung ist kostspielig. In dieser Arbeit präsentieren wir eine neue state-of-the-art unsupervised Methode, die auf vortrainierten Transformers und einem Sequential Denoising Auto-Encoder (TSDAE) basiert und frühere Ansätze um bis zu 6,4 Punkte übertrifft. Sie erreicht bis zu 93,1 % der Leistung von domänen-spezifischen überwachten Ansätzen. Darüber hinaus zeigen wir, dass TSDAE eine leistungsstarke Methode für Domänenanpassung und Vortrainierung von Satz-Embeddings darstellt und signifikant andere Ansätze wie den Masked Language Model übertrifft. Ein entscheidender Mangel früherer Studien liegt in der engen Evaluation: Die meisten Arbeiten bewerten ausschließlich die Aufgabe der semantischen Textähnlichkeit (Semantic Textual Similarity, STS), die keinerlei domänenspezifisches Wissen erfordert. Unklar ist daher, ob die vorgeschlagenen Methoden auf andere Domänen und Aufgaben verallgemeinerbar sind. Wir schließen diese Lücke und evaluieren TSDAE sowie andere neuere Ansätze an vier unterschiedlichen Datensätzen aus heterogenen Domänen.