HyperAIHyperAI

Command Palette

Search for a command to run...

Ein semigewisser Satz-Embedding-Ansatz durch Maximierung der gegenseitigen Information

Yan Zhang Ruidan He Zuozhu Liu Kwan Hui Lim Lidong Bing

Zusammenfassung

BERT ist für Aufgaben mit Satzpaaren, wie beispielsweise Clustering oder semantische Suche, ineffizient, da es kombinatorisch viele Satzpaare bewerten muss, was äußerst zeitaufwendig ist. Sentence BERT (SBERT) versuchte diese Herausforderung zu bewältigen, indem er semantisch sinnvolle Darstellungen einzelner Sätze lernte, sodass die Ähnlichkeitsbewertung vereinfacht werden konnte. Allerdings wird SBERT auf Korpora mit hochwertigen, gelabelten Satzpaaren trainiert, was seine Anwendbarkeit auf Aufgaben einschränkt, bei denen gelabelte Daten äußerst knapp sind. In diesem Paper stellen wir eine leichtgewichtige Erweiterung über BERT hinaus sowie ein neuartiges selbstüberwachtes Lernziel basierend auf Strategien zur Maximierung der gegenseitigen Information vor, um sinnvolle Satzembeddings auf unsupervisierter Weise zu erzeugen. Im Gegensatz zu SBERT ist unsere Methode nicht durch die Verfügbarkeit von gelabelten Daten eingeschränkt und kann somit auf unterschiedliche, domänenspezifische Korpora angewendet werden. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode andere unsupervisierte Baselines für Satzembeddings signifikant bei gängigen Aufgaben zur semantischen Textähnlichkeit (STS) und nachgeschalteten überwachten Aufgaben übertrifft. Zudem erreicht sie bei einem Szenario, in dem keine domänenspezifischen gelabelten Daten verfügbar sind, eine Leistung, die mit überwachten Methoden konkurrieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein semigewisser Satz-Embedding-Ansatz durch Maximierung der gegenseitigen Information | Paper | HyperAI