HyperAIHyperAI
il y a 17 jours

RetroMAE v2 : Auto-encodeur Masqué Duplex pour l'Entraînement Préalable de Modèles Linguistiques Orientés Récupération

Shitao Xiao, Zheng Liu
RetroMAE v2 : Auto-encodeur Masqué Duplex pour l'Entraînement Préalable de Modèles Linguistiques Orientés Récupération
Résumé

Afin de mieux soutenir les applications de recherche telles que la recherche web et la réponse aux questions, des efforts croissants sont déployés pour développer des modèles linguistiques orientés vers la récupération. La plupart des travaux existants se concentrent sur l'amélioration de la capacité de représentation sémantique des embeddings contextualisés du token [CLS]. Toutefois, une étude récente montre que les tokens ordinaires, en dehors de [CLS], peuvent apporter des informations supplémentaires, contribuant ainsi à une meilleure représentation. Il devient donc nécessaire d’étendre les méthodes actuelles en permettant une pré-formation conjointe de tous les embeddings contextualisés pour les tâches de récupération.Dans cette optique, nous proposons une nouvelle méthode de pré-formation : le décodeur auto-encodeur duplex, ou DupMAE, visant à améliorer la capacité de représentation sémantique des embeddings contextualisés tant du token [CLS] que des tokens ordinaires. Cette méthode introduit deux tâches de décodage : la première consiste à reconstruire la phrase d'entrée initiale à partir de l'embedding de [CLS], la seconde à minimiser la perte de type « sac de mots » (BoW) relative à la phrase d'entrée, basée sur l'ensemble des embeddings des tokens ordinaires. Ces deux pertes de décodage sont additionnées afin d’entraîner un modèle d’encodage unifié. Les embeddings issus de [CLS] et des tokens ordinaires, après réduction de dimension et agrégation, sont ensuite concaténés pour former une représentation sémantique unifiée de l’entrée. DupMAE est simple mais empiriquement compétitif : avec un coût de décodage faible, elle améliore significativement la capacité de représentation et la transférabilité du modèle, obtenant des progrès marquants sur les benchmarks MS MARCO et BEIR.

RetroMAE v2 : Auto-encodeur Masqué Duplex pour l'Entraînement Préalable de Modèles Linguistiques Orientés Récupération | Articles de recherche récents | HyperAI