HyperAIHyperAI
il y a 17 jours

Comment entraîner votre DRAGON : une augmentation diversifiée pour une récupération dense généralisable

Sheng-Chieh Lin, Akari Asai, Minghan Li, Barlas Oguz, Jimmy Lin, Yashar Mehdad, Wen-tau Yih, Xilun Chen
Comment entraîner votre DRAGON : une augmentation diversifiée pour une récupération dense généralisable
Résumé

Au cours des dernières années, diverses techniques ont été développées afin d’améliorer le récupérateur dense (DR), telles que l’apprentissage contrastif non supervisé et la génération de requêtes pseudo-étiquetées. Toutefois, les DR existants souffrent fréquemment d’un compromis en termes d’efficacité entre les évaluations supervisées et à zéro-shot, un phénomène que certains attribuent à une capacité limitée du modèle. Nous contredisons cette hypothèse et démontrons qu’un DR généralisable peut être entraîné pour atteindre une haute précision à la fois dans les tâches supervisées et à zéro-shot, sans augmenter la taille du modèle. Plus précisément, nous examinons de manière systématique l’apprentissage contrastif des DR dans le cadre de l’augmentation de données (DA). Notre étude révèle que des pratiques courantes d’augmentation de données — telles que l’augmentation des requêtes à l’aide de modèles génératifs ou la création d’étiquettes de pertinence pseudo-étiquetées via un cross-encodeur — sont souvent inefficaces et sous-optimales. Nous proposons donc une nouvelle approche d’augmentation de données basée sur des requêtes diversifiées et des sources multiples de supervision, permettant d’entraîner progressivement un DR généralisable. En conséquence, DRAGON, notre récupérateur dense entraîné avec une augmentation diversifiée, devient le premier modèle de taille BERT-base à atteindre un niveau d’efficacité de pointe dans les évaluations supervisées et à zéro-shot, et même à rivaliser avec des modèles plus complexes utilisant une interaction tardive (ColBERTv2 et SPLADE++).

Comment entraîner votre DRAGON : une augmentation diversifiée pour une récupération dense généralisable | Articles de recherche récents | HyperAI