Sentence-BERT : Embeddings de phrases à l'aide de réseaux BERT jumeaux

BERT (Devlin et al., 2018) et RoBERTa (Liu et al., 2019) ont établi de nouvelles performances de pointe dans les tâches de régression par paires de phrases, telles que la similarité textuelle sémantique (STS). Cependant, ces modèles nécessitent que les deux phrases soient introduites dans le réseau, ce qui entraîne un surcoût computationnel important : trouver la paire la plus similaire dans une collection de 10 000 phrases requiert environ 50 millions d'opérations d'inférence (environ 65 heures) avec BERT. La structure de BERT le rend inadapté pour la recherche de similarité sémantique ainsi que pour des tâches non supervisées comme le clustering.Dans cette publication, nous présentons Sentence-BERT (SBERT), une modification du réseau BERT pré-entraîné qui utilise des structures de réseaux siamois et triplet pour générer des plongements de phrases sémantiquement significatifs pouvant être comparés à l'aide de la similarité cosinus. Cette approche réduit le temps nécessaire pour trouver la paire la plus similaire de 65 heures avec BERT / RoBERTa à environ 5 secondes avec SBERT, tout en maintenant la précision offerte par BERT.Nous évaluons SBERT et SRoBERTa sur des tâches courantes de STS et de transfert d'apprentissage, où ils surpassent d'autres méthodes actuelles d'embeddings de phrases.