il y a 17 jours

Réduction de dimension pour une récupération dense efficace via un autoencodeur conditionnel

Zhenghao Liu, Han Zhang, Chenyan Xiong, Zhiyuan Liu, Yu Gu, Xiaohua Li

Résumé

Les récupérateurs denses encodent les requêtes et les documents, puis les projettent dans un espace d’embeddings à l’aide de modèles linguistiques pré-entraînés. Ces embeddings doivent être à haute dimension afin de capturer efficacement les signaux d’apprentissage et garantir l’efficacité du processus de récupération. Toutefois, ces embeddings à haute dimension entraînent une augmentation de la taille du stockage de l’index ainsi qu’une latence accrue lors de la récupération. Afin de réduire la dimension des embeddings dans les systèmes de récupération dense, ce papier propose un Autoencodeur Conditionnel (ConAE) visant à compresser les embeddings à haute dimension tout en préservant la même distribution d’embeddings et en améliorant la reconstruction des caractéristiques de classement. Nos expériences montrent que ConAE est efficace pour compresser les embeddings, en atteignant des performances de classement comparables à celles de son modèle enseignant, tout en rendant le système de récupération plus performant. Des analyses supplémentaires révèlent que ConAE permet de réduire la redondance des embeddings dans les récupérateurs denses, même avec une seule couche linéaire. Tous les codes associés à ce travail sont disponibles à l’adresse suivante : https://github.com/NEUIR/ConAE.