HyperAIHyperAI
il y a 2 mois

Poly-encoders : architectures de transformers et stratégies d'pré-entraînement pour un scoring multi-sentence rapide et précis

Samuel Humeau; Kurt Shuster; Marie-Anne Lachaux; Jason Weston
Poly-encoders : architectures de transformers et stratégies d'pré-entraînement pour un scoring multi-sentence rapide et précis
Résumé

L'utilisation de transformateurs bidirectionnels pré-entraînés en profondeur a conduit à des progrès remarquables dans de nombreuses applications (Devlin et al., 2018). Pour les tâches qui nécessitent des comparaisons par paires entre séquences, en associant une entrée donnée à une étiquette correspondante, deux approches sont courantes : les Cross-encoders qui effectuent une attention complète sur la paire et les Bi-encoders qui encodent la paire séparément. La première approche offre souvent de meilleures performances, mais est trop lente pour un usage pratique. Dans ce travail, nous développons une nouvelle architecture de transformateur, le Poly-encoder, qui apprend des caractéristiques d'attention globale plutôt que des caractéristiques d'attention au niveau des tokens. Nous effectuons une comparaison détaillée des trois approches, y compris des stratégies de pré-entraînement et d'affinage qui fonctionnent le mieux. Nous montrons que nos modèles atteignent des résultats de pointe sur trois tâches existantes ; que les Poly-encoders sont plus rapides que les Cross-encoders et plus précis que les Bi-encoders ; et que les meilleurs résultats sont obtenus en pré-entraînant sur de grands ensembles de données similaires aux tâches aval.

Poly-encoders : architectures de transformers et stratégies d'pré-entraînement pour un scoring multi-sentence rapide et précis | Articles de recherche récents | HyperAI