HyperAIHyperAI

Command Palette

Search for a command to run...

Poly-encoders : architectures de transformers et stratégies d'pré-entraînement pour un scoring multi-sentence rapide et précis

Samuel Humeau Kurt Shuster Marie-Anne Lachaux Jason Weston

Résumé

L'utilisation de transformateurs bidirectionnels pré-entraînés en profondeur a conduit à des progrès remarquables dans de nombreuses applications (Devlin et al., 2018). Pour les tâches qui nécessitent des comparaisons par paires entre séquences, en associant une entrée donnée à une étiquette correspondante, deux approches sont courantes : les Cross-encoders qui effectuent une attention complète sur la paire et les Bi-encoders qui encodent la paire séparément. La première approche offre souvent de meilleures performances, mais est trop lente pour un usage pratique. Dans ce travail, nous développons une nouvelle architecture de transformateur, le Poly-encoder, qui apprend des caractéristiques d'attention globale plutôt que des caractéristiques d'attention au niveau des tokens. Nous effectuons une comparaison détaillée des trois approches, y compris des stratégies de pré-entraînement et d'affinage qui fonctionnent le mieux. Nous montrons que nos modèles atteignent des résultats de pointe sur trois tâches existantes ; que les Poly-encoders sont plus rapides que les Cross-encoders et plus précis que les Bi-encoders ; et que les meilleurs résultats sont obtenus en pré-entraînant sur de grands ensembles de données similaires aux tâches aval.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp