HyperAIHyperAI

Command Palette

Search for a command to run...

SitEmb-v1.5 : Récupération dense consciente du contexte améliorée pour l'association sémantique et la compréhension des longs récits

Junjie Wu Jiangnan Li Yuqing Li Lemao Liu Liyan Xu Jiwei Li Dit-Yan Yeung Jie Zhou Mo Yu

Résumé

La génération augmentée par recherche (RAG) sur des documents longs repose généralement sur la segmentation du texte en morceaux plus petits, qui servent d'unités fondamentales pour la recherche. Toutefois, en raison des dépendances présentes dans le document original, des informations contextuelles sont souvent essentielles pour interpréter correctement chaque morceau. Pour remédier à ce problème, des travaux antérieurs ont exploré l'encodage de fenêtres contextuelles plus longues afin de produire des représentations (embeddings) pour des morceaux plus étendus. Malgré ces efforts, les améliorations observées en matière de recherche et de tâches ultérieures restent limitées. Cela s'explique par deux facteurs : (1) les morceaux plus longs sollicitent davantage la capacité des modèles d'encodage, en raison de la quantité accrue d'information à traiter, et (2) de nombreuses applications réelles nécessitent encore la restitution de preuves localisées, en raison de contraintes liées à la capacité des modèles ou à celle des humains.Nous proposons une approche alternative à ce défi, en représentant les morceaux courts de manière conditionnée par une fenêtre contextuelle plus large, afin d’améliorer les performances de recherche — autrement dit, en situant le sens d’un morceau au sein de son contexte global. Nous montrons également que les modèles d’embedding existants ne sont pas bien adaptés à l’encodage efficace de tels contextes situés, et introduisons donc un nouveau paradigme d’entraînement ainsi que le modèle d’embeddings situés (SitEmb). Pour évaluer notre méthode, nous avons constitué un jeu de données dédié à la recherche de trames narratives dans des livres, spécifiquement conçu pour mesurer les capacités de recherche située. Sur ce benchmark, notre modèle SitEmb-v1 basé sur BGE-M3 surpasse significativement les modèles d’embedding de pointe, y compris certains avec jusqu’à 7 à 8 milliards de paramètres, tout en ne comptant que 1 milliard de paramètres. Notre modèle SitEmb-v1.5, quant à lui, avec 8 milliards de paramètres, améliore encore les performances de plus de 10 % et obtient des résultats solides sur plusieurs langues ainsi que dans diverses tâches ultérieures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SitEmb-v1.5 : Récupération dense consciente du contexte améliorée pour l'association sémantique et la compréhension des longs récits | Articles | HyperAI