SentenceMIM: Ein latentes Variablen-Sprachmodell

SentenceMIM ist ein probabilistischer Autoencoder für Sprachdaten, der mit dem Lernverfahren der Mutual Information Machine (MIM) trainiert wurde, um eine feste Länge an repräsentativen Merkmalen für variable Längen von Sprachbeobachtungen zu erzeugen (ähnlich wie bei VAEs). Frühere Versuche, VAEs für Sprachdaten zu lernen, stießen auf Schwierigkeiten aufgrund des sogenannten Posterior-Collapse. MIM-Lernen fördert eine hohe gegenseitige Information zwischen Beobachtungen und latenten Variablen und ist robust gegenüber dem Posterior-Collapse. Dadurch kann SentenceMIM informative Darstellungen lernen, deren Dimension um eine Größenordnung höher sein kann als bei bestehenden Sprach-VAEs. Wichtig ist, dass die SentenceMIM-Verlustfunktion keine Hyperparameter besitzt, was die Optimierung erheblich vereinfacht. Wir vergleichen SentenceMIM mit VAE und AE an mehreren Datensätzen. SentenceMIM erreicht eine hervorragende Rekonstruktion, die mit der von AEs vergleichbar ist, und gleichzeitig einen strukturierten latenten Raum, der der von VAEs entspricht. Die Struktur der latenten Darstellung wird durch Interpolationen zwischen Sätzen unterschiedlicher Länge demonstriert. Die Vielseitigkeit von SentenceMIM wird anhand einer Anwendung auf die Fragebeantwortung und Transfer-Learning gezeigt, wobei keine Nachtrainierung erforderlich ist. Hierbei übertrifft SentenceMIM sowohl VAE als auch AE mit ähnlichen Architekturen.