HyperAIHyperAI
il y a 17 jours

Apprentissage par contraste négatif à voisinage proche approximatif pour la recherche de texte dense

Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul Bennett, Junaid Ahmed, Arnold Overwijk
Apprentissage par contraste négatif à voisinage proche approximatif pour la recherche de texte dense
Résumé

Effectuer la récupération de texte dans un espace de représentation dense apprise présente de nombreux avantages intéressants par rapport à la récupération creuse. Toutefois, l’efficacité de la récupération dense (DR) repose souvent sur une combinaison avec la récupération creuse. Dans cet article, nous identifions que le principal goulot d’étranglement réside dans les mécanismes d’apprentissage, où les instances négatives utilisées pendant l’entraînement ne sont pas représentatives des documents non pertinents observés lors du test. Nous proposons une méthode d’apprentissage appelée Approximate Nearest Neighbor Negative Contrastive Estimation (ANCE), qui construit les instances négatives à partir d’un index de plus proches voisins approximatifs (ANN) du corpus, mis à jour de manière parallèle au processus d’apprentissage afin de sélectionner des exemples négatifs plus réalistes. Cette approche résout fondamentalement le décalage entre les distributions de données utilisées lors de l’entraînement et du test dans la DR. Nos expériences montrent que ANCE améliore significativement le modèle BERT-Siamese de DR, permettant de surpasser tous les modèles de récupération dense et creuse concurrents. De plus, ANCE atteint presque la précision de la méthode combinant récupération creuse et re-rangement par BERT en utilisant le produit scalaire dans l’espace de représentation appris par ANCE, tout en offrant un gain de vitesse d’environ 100 fois.

Apprentissage par contraste négatif à voisinage proche approximatif pour la recherche de texte dense | Articles de recherche récents | HyperAI