HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

REFRAG : Repenser le décodage basé sur RAG

Xiaoqiang Lin Aritra Ghosh Bryan Kian Hsiang Low Anshumali Shrivastava Vijai Mohan

REFRAG : Repenser le décodage basé sur RAG

Résumé

Les grands modèles linguistiques (LLM) ont démontré des capacités remarquables en exploitant de vastes connaissances externes afin d’améliorer les réponses dans des applications multi-tours et agencées, telles que la génération augmentée par récupération (RAG). Toutefois, le traitement d’entrées à long contexte introduit une latence systémique importante et exige une mémoire substantielle pour le cache des paires clé-valeur, ce qui réduit le débit et crée un compromis fondamental entre l’enrichissement des connaissances et l’efficacité du système. Bien que la réduction de la latence pour les entrées à long contexte soit une priorité majeure pour les LLM, nous soutenons qu’une attention particulière doit être accordée au RAG. Dans le cadre du RAG, une grande partie du contexte du LLM est constituée de passages concaténés issus d’une récupération, dont seule une petite partie est directement pertinente par rapport à la requête. Ces passages présentent souvent une faible similarité sémantique en raison de la diversité ou de la suppression des doublons effectuées lors du ré-ordonnancement, entraînant des motifs d’attention en bloc-diagonale, distincts de ceux observés dans les tâches standard de génération par LLM. À partir de cette observation, nous affirmons que la majeure partie des calculs effectués sur le contexte RAG pendant la décodification est inutile et peut être éliminée avec un impact minimal sur les performances. À cette fin, nous proposons REFRAG, un cadre efficace de décodage qui compresse, détecte et expande pour améliorer la latence dans les applications RAG. En exploitant la structure de sparsité, nous démontrons une accélération de 30,85 % du temps jusqu’au premier jeton (amélioration de 3,75 % par rapport aux travaux antérieurs) sans perte de perplexité. En outre, notre cadre d’optimisation pour les contextes longs permet à REFRAG d’élargir la taille du contexte des LLM de 16 fois. Nous fournissons une validation rigoureuse de REFRAG sur une variété de tâches à long contexte, incluant le RAG, les conversations multi-tours et la synthèse de documents longs, couvrant un large éventail de jeux de données. Les résultats expérimentaux confirment que REFRAG permet une accélération significative sans perte de précision par rapport aux modèles LLaMA et à d’autres états de l’art, sur diverses tailles de contexte.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
REFRAG : Repenser le décodage basé sur RAG | Articles de recherche | HyperAI