Sentence-BERT: Satzrepräsentationen mit Siamese BERT-Netzwerken

BERT (Devlin et al., 2018) und RoBERTa (Liu et al., 2019) haben bei Satzpaar-Regressionssaufgaben wie der semantischen Textähnlichkeit (STS) eine neue Spitzenleistung erzielt. Allerdings erfordert es, dass beide Sätze in das Netzwerk eingegeben werden, was einen enormen Rechenaufwand verursacht: Das Auffinden des ähnlichsten Paares in einer Sammlung von 10.000 Sätzen benötigt mit BERT etwa 50 Millionen Inferenzberechnungen (~65 Stunden). Die Struktur von BERT macht es für die semantische Ähnlichkeitsuche sowie für unüberwachte Aufgaben wie Clustering ungeeignet.In dieser Veröffentlichung stellen wir Sentence-BERT (SBERT) vor, eine Modifikation des vortrainierten BERT-Netzwerks, die siamesische und Tripletten-Netzstrukturen verwendet, um semantisch bedeutsame Satzrepräsentationen abzuleiten, die mithilfe der Cosinus-Ähnlichkeit verglichen werden können. Dies reduziert den Aufwand für das Auffinden des ähnlichsten Paares von 65 Stunden mit BERT/RoBERTa auf etwa 5 Sekunden mit SBERT, wobei die Genauigkeit von BERT beibehalten wird.Wir evaluieren SBERT und SRoBERTa anhand gängiger STS-Aufgaben und Transfer-Learning-Aufgaben, wo sie andere Spitzenverfahren zur Erstellung von Satzrepräsentationen übertrumpfen.