SitEmb-v1.5 : Récupération dense consciente du contexte améliorée pour l'association sémantique et la compréhension des longs récits

La génération augmentée par recherche (RAG) sur des documents longs repose généralement sur la segmentation du texte en morceaux plus petits, qui servent d'unités fondamentales pour la recherche. Toutefois, en raison des dépendances présentes dans le document original, des informations contextuelles sont souvent essentielles pour interpréter correctement chaque morceau. Pour remédier à ce problème, des travaux antérieurs ont exploré l'encodage de fenêtres contextuelles plus longues afin de produire des représentations (embeddings) pour des morceaux plus étendus. Malgré ces efforts, les améliorations observées en matière de recherche et de tâches ultérieures restent limitées. Cela s'explique par deux facteurs : (1) les morceaux plus longs sollicitent davantage la capacité des modèles d'encodage, en raison de la quantité accrue d'information à traiter, et (2) de nombreuses applications réelles nécessitent encore la restitution de preuves localisées, en raison de contraintes liées à la capacité des modèles ou à celle des humains.Nous proposons une approche alternative à ce défi, en représentant les morceaux courts de manière conditionnée par une fenêtre contextuelle plus large, afin d’améliorer les performances de recherche — autrement dit, en situant le sens d’un morceau au sein de son contexte global. Nous montrons également que les modèles d’embedding existants ne sont pas bien adaptés à l’encodage efficace de tels contextes situés, et introduisons donc un nouveau paradigme d’entraînement ainsi que le modèle d’embeddings situés (SitEmb). Pour évaluer notre méthode, nous avons constitué un jeu de données dédié à la recherche de trames narratives dans des livres, spécifiquement conçu pour mesurer les capacités de recherche située. Sur ce benchmark, notre modèle SitEmb-v1 basé sur BGE-M3 surpasse significativement les modèles d’embedding de pointe, y compris certains avec jusqu’à 7 à 8 milliards de paramètres, tout en ne comptant que 1 milliard de paramètres. Notre modèle SitEmb-v1.5, quant à lui, avec 8 milliards de paramètres, améliore encore les performances de plus de 10 % et obtient des résultats solides sur plusieurs langues ainsi que dans diverses tâches ultérieures.