Ein semigewisser Satz-Embedding-Ansatz durch Maximierung der gegenseitigen Information

BERT ist für Aufgaben mit Satzpaaren, wie beispielsweise Clustering oder semantische Suche, ineffizient, da es kombinatorisch viele Satzpaare bewerten muss, was äußerst zeitaufwendig ist. Sentence BERT (SBERT) versuchte diese Herausforderung zu bewältigen, indem er semantisch sinnvolle Darstellungen einzelner Sätze lernte, sodass die Ähnlichkeitsbewertung vereinfacht werden konnte. Allerdings wird SBERT auf Korpora mit hochwertigen, gelabelten Satzpaaren trainiert, was seine Anwendbarkeit auf Aufgaben einschränkt, bei denen gelabelte Daten äußerst knapp sind. In diesem Paper stellen wir eine leichtgewichtige Erweiterung über BERT hinaus sowie ein neuartiges selbstüberwachtes Lernziel basierend auf Strategien zur Maximierung der gegenseitigen Information vor, um sinnvolle Satzembeddings auf unsupervisierter Weise zu erzeugen. Im Gegensatz zu SBERT ist unsere Methode nicht durch die Verfügbarkeit von gelabelten Daten eingeschränkt und kann somit auf unterschiedliche, domänenspezifische Korpora angewendet werden. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode andere unsupervisierte Baselines für Satzembeddings signifikant bei gängigen Aufgaben zur semantischen Textähnlichkeit (STS) und nachgeschalteten überwachten Aufgaben übertrifft. Zudem erreicht sie bei einem Szenario, in dem keine domänenspezifischen gelabelten Daten verfügbar sind, eine Leistung, die mit überwachten Methoden konkurrieren kann.