HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

REFRAG: إعادة التفكير في التفكيك القائم على RAG

Xiaoqiang Lin Aritra Ghosh Bryan Kian Hsiang Low Anshumali Shrivastava Vijai Mohan

REFRAG: إعادة التفكير في التفكيك القائم على RAG

الملخص

أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات متميزة في الاستفادة من المعرفة الخارجية الواسعة لتحسين الإجابات في التطبيقات متعددة الدورات والتطبيقات العاملة بذكاء، مثل التوليد المدعوم باسترجاع (RAG). ومع ذلك، فإن معالجة المدخلات ذات السياق الطويل تؤدي إلى تأخير كبير في النظام وتتطلب ذاكرة كبيرة لتخزين ذاكرة التخزين المؤقت للقيم الرئيسية والكُتُب (key-value cache)، مما يقلل من الإنتاجية ويخلق تنازعاً جوهرياً بين تحسين المعرفة وفعالية النظام. وعلى الرغم من أن تقليل التأخير في المدخلات ذات السياق الطويل يُعد هدفاً أساسياً للنماذج اللغوية الكبيرة، فإننا نرى أن تطبيقات RAG تتطلب اعتبارات خاصة. في RAG، يتكوّن جزء كبير من سياق النموذج من فقرات متسلسلة تم استرجاعها، حيث تكون فقط مجموعة صغيرة من هذه الفقرات ذات صلة مباشرة بالسؤال. وغالباً ما تُظهر هذه الفقرات تشابهاً شبه معدوماً من حيث المعنى بسبب التنوّع أو عملية إزالة التكرار أثناء عملية إعادة الترتيب، مما يؤدي إلى أنماط انتباه من النوع المصفوفة المربعة المُجزأة (block-diagonal attention)، والتي تختلف عن الأنماط المُستخدمة في مهام التوليد القياسي للنماذج اللغوية الكبيرة. بناءً على هذه الملاحظة، نُقدّم رأياً مفاده أن معظم العمليات الحسابية المُنفَّذة على سياق RAG أثناء عملية التشفير (decoding) تكون غير ضرورية، ويمكن التخلص منها دون تأثير كبير على الأداء. ولتحقيق ذلك، نقترح إطاراً فعالاً للتشييف يُسمى REFRAG، والذي يعتمد على ضغط السياق، واستشعاره، ثم توسيعه، بهدف تحسين زمن الاستجابة في تطبيقات RAG. وباستغلال البنية النادرة (sparsity structure) في البيانات، نُظهر تسريعاً بنسبة 30.85% في زمن ظهور الرمز الأول (time-to-first-token)، بتحسّن بنسبة 3.75 مقارنة بالعمل السابق، دون أي خسارة في قياس الالتباس (perplexity). بالإضافة إلى ذلك، يمكّن إطار التحسين لدينا النماذج ذات السياق الكبير من توسيع حجم السياق الذي يمكن للنماذج اللغوية الكبيرة التعامل معه بنسبة 16%. ونقدّم تقييماً دقيقاً لـ REFRAG عبر مجموعة متنوعة من المهام ذات السياق الطويل، بما في ذلك RAG، والمحادثات متعددة الدورات، وتلخيص الوثائق الطويلة، على مجموعة واسعة من المجموعات البيانات. وأظهرت النتائج التجريبية أن REFRAG تحقق تسارعاً كبيراً في الأداء دون فقدان في الدقة مقارنة بنماذج LLaMA والأساليب الأخرى المتطورة في المجال، عبر مختلف أحجام السياق.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
REFRAG: إعادة التفكير في التفكيك القائم على RAG | الأوراق البحثية | HyperAI