منذ 12 أيام

SitEmb-v1.5: استرجاع كثيف مُراعٍ للسياق محسّن للارتباط الدلالي وفهم القصة الطويلة

Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu

الملخص

يُعدّ التوليد المُعزّز بالاسترجاع (RAG) على المستندات الطويلة عادةً عملية تقسيم النص إلى قطع أصغر، تُعدّ الوحدات الأساسية لعملية الاسترجاع. ومع ذلك، نظرًا للعوامل الترابطية بين أجزاء المستند الأصلي، فإن المعلومات السياقية غالبًا ما تكون ضرورية لفهم دقيق لكل قطعة. ولحل هذه المشكلة، استكشفت الأبحاث السابقة ترميز نوافذ سياقية أطول لإنتاج تمثيلات (Embeddings) لقطع أطول. وعلى الرغم من هذه الجهود، لا تزال المكاسب في أداء الاسترجاع والمهام اللاحقة محدودة. وذلك بسبب (1) أن القطع الأطول تُثقل كاهل نماذج التمثيل بسبب الكمية المتزايدة من المعلومات التي يجب ترميزها، و(2) أن العديد من التطبيقات الواقعية ما زالت تتطلب عرض أدلة محددة مكانيًا، نظرًا للقيود المفروضة على قدرة النموذج أو على سعة الإنسان.نُقدّم نهجًا بديلًا لمواجهة هذه التحديات من خلال تمثيل القطع القصيرة بطريقة تُعتمد على نافذة سياقية أوسع، بهدف تعزيز أداء الاسترجاع — أي وضع معنى كل قطعة في سياقها المناسب. كما نُظهر أن النماذج الحالية للتمثيل لا تمتلك القدرة الكافية على ترميز هذا السياق المُحاط بشكل فعّال، ولهذا نُقدّم نموذجًا تدريبيًا جديدًا، ونُطوّر نماذج التمثيل المُحاطة (SitEmb). ولتقييم طريقة عملنا، قمنا بتكوين مجموعة بيانات لاسترجاع أحداث القصص (book-plot retrieval) مصممة خصيصًا لتقييم القدرة على الاسترجاع السياقي. على هذه المعيار، أظهر نموذج SitEmb-v1 المبني على BGE-M3 أداءً متفوّقًا بشكل كبير على أبرز النماذج الحالية للتمثيل، بما في ذلك عدة نماذج تضم ما يصل إلى 7-8 مليار معلمة، مع امتلاكه فقط مليار معلمة. كما حقق نموذج SitEmb-v1.5 بحجم 8 مليار معلمة تحسنًا في الأداء بمقدار أكثر من 10%، مع إظهار نتائج قوية عبر لغات متعددة وعدد من التطبيقات اللاحقة.