Command Palette
Search for a command to run...
Xiaoqiang Lin Aritra Ghosh Bryan Kian Hsiang Low Anshumali Shrivastava Vijai Mohan

الملخص
أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات متميزة في الاستفادة من المعرفة الخارجية الواسعة لتحسين الإجابات في التطبيقات متعددة الدورات والتطبيقات العاملة بذكاء، مثل التوليد المدعوم باسترجاع (RAG). ومع ذلك، فإن معالجة المدخلات ذات السياق الطويل تؤدي إلى تأخير كبير في النظام وتتطلب ذاكرة كبيرة لتخزين ذاكرة التخزين المؤقت للقيم الرئيسية والكُتُب (key-value cache)، مما يقلل من الإنتاجية ويخلق تنازعاً جوهرياً بين تحسين المعرفة وفعالية النظام. وعلى الرغم من أن تقليل التأخير في المدخلات ذات السياق الطويل يُعد هدفاً أساسياً للنماذج اللغوية الكبيرة، فإننا نرى أن تطبيقات RAG تتطلب اعتبارات خاصة. في RAG، يتكوّن جزء كبير من سياق النموذج من فقرات متسلسلة تم استرجاعها، حيث تكون فقط مجموعة صغيرة من هذه الفقرات ذات صلة مباشرة بالسؤال. وغالباً ما تُظهر هذه الفقرات تشابهاً شبه معدوماً من حيث المعنى بسبب التنوّع أو عملية إزالة التكرار أثناء عملية إعادة الترتيب، مما يؤدي إلى أنماط انتباه من النوع المصفوفة المربعة المُجزأة (block-diagonal attention)، والتي تختلف عن الأنماط المُستخدمة في مهام التوليد القياسي للنماذج اللغوية الكبيرة. بناءً على هذه الملاحظة، نُقدّم رأياً مفاده أن معظم العمليات الحسابية المُنفَّذة على سياق RAG أثناء عملية التشفير (decoding) تكون غير ضرورية، ويمكن التخلص منها دون تأثير كبير على الأداء. ولتحقيق ذلك، نقترح إطاراً فعالاً للتشييف يُسمى REFRAG، والذي يعتمد على ضغط السياق، واستشعاره، ثم توسيعه، بهدف تحسين زمن الاستجابة في تطبيقات RAG. وباستغلال البنية النادرة (sparsity structure) في البيانات، نُظهر تسريعاً بنسبة 30.85% في زمن ظهور الرمز الأول (time-to-first-token)، بتحسّن بنسبة 3.75 مقارنة بالعمل السابق، دون أي خسارة في قياس الالتباس (perplexity). بالإضافة إلى ذلك، يمكّن إطار التحسين لدينا النماذج ذات السياق الكبير من توسيع حجم السياق الذي يمكن للنماذج اللغوية الكبيرة التعامل معه بنسبة 16%. ونقدّم تقييماً دقيقاً لـ REFRAG عبر مجموعة متنوعة من المهام ذات السياق الطويل، بما في ذلك RAG، والمحادثات متعددة الدورات، وتلخيص الوثائق الطويلة، على مجموعة واسعة من المجموعات البيانات. وأظهرت النتائج التجريبية أن REFRAG تحقق تسارعاً كبيراً في الأداء دون فقدان في الدقة مقارنة بنماذج LLaMA والأساليب الأخرى المتطورة في المجال، عبر مختلف أحجام السياق.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.