Lernen problemunabhängiger Sprachrepräsentationen aus mehreren selbstüberwachten Aufgaben

Das Lernen von guten Repräsentationen ohne Aufsicht ist nach wie vor eine offene Fragestellung im Maschinellen Lernen und stellt insbesondere für Sprachsignale eine besondere Herausforderung dar, da diese oft durch lange Sequenzen mit komplexer hierarchischer Struktur gekennzeichnet sind. Einige jüngere Arbeiten haben jedoch gezeigt, dass es möglich ist, nützliche Sprachrepräsentationen durch den Einsatz eines selbstüberwachten Encoder-Diskriminator-Ansatzes abzuleiten. In dieser Arbeit wird eine verbesserte Methode des selbstüberwachten Lernens vorgeschlagen, bei der ein einzelner neuronaler Encoder von mehreren Workern gefolgt wird, die gemeinsam verschiedene selbstüberwachte Aufgaben lösen. Die notwendige Übereinstimmung zwischen den verschiedenen Aufgaben legt dem Encoder natürliche, sinnvolle Restriktionen auf, was zur Entdeckung allgemeiner Repräsentationen beiträgt und das Risiko minimiert, oberflächliche Merkmale zu lernen. Experimente zeigen, dass der vorgeschlagene Ansatz übertragbare, robuste und problemunabhängige Merkmale erlernen kann, die relevante Informationen aus dem Sprachsignal transportieren, wie z.B. Sprechergeschlecht (speaker identity), Phoneme und sogar hochwertigere Merkmale wie emotionale Hinweise (emotional cues). Zudem ermöglichen verschiedene Designentscheidungen eine einfache Exportierbarkeit des Encoders, was seine direkte Verwendung oder Anpassung an unterschiedliche Probleme erleichtert.