HyperAIHyperAI

Command Palette

Search for a command to run...

SitEmb-v1.5: استرجاع كثيف مُراعٍ للسياق محسّن للارتباط الدلالي وفهم القصة الطويلة

Junjie Wu Jiangnan Li Yuqing Li Lemao Liu Liyan Xu Jiwei Li Dit-Yan Yeung Jie Zhou Mo Yu

الملخص

يُعدّ التوليد المُعزّز بالاسترجاع (RAG) على المستندات الطويلة عادةً عملية تقسيم النص إلى قطع أصغر، تُعدّ الوحدات الأساسية لعملية الاسترجاع. ومع ذلك، نظرًا للعوامل الترابطية بين أجزاء المستند الأصلي، فإن المعلومات السياقية غالبًا ما تكون ضرورية لفهم دقيق لكل قطعة. ولحل هذه المشكلة، استكشفت الأبحاث السابقة ترميز نوافذ سياقية أطول لإنتاج تمثيلات (Embeddings) لقطع أطول. وعلى الرغم من هذه الجهود، لا تزال المكاسب في أداء الاسترجاع والمهام اللاحقة محدودة. وذلك بسبب (1) أن القطع الأطول تُثقل كاهل نماذج التمثيل بسبب الكمية المتزايدة من المعلومات التي يجب ترميزها، و(2) أن العديد من التطبيقات الواقعية ما زالت تتطلب عرض أدلة محددة مكانيًا، نظرًا للقيود المفروضة على قدرة النموذج أو على سعة الإنسان.نُقدّم نهجًا بديلًا لمواجهة هذه التحديات من خلال تمثيل القطع القصيرة بطريقة تُعتمد على نافذة سياقية أوسع، بهدف تعزيز أداء الاسترجاع — أي وضع معنى كل قطعة في سياقها المناسب. كما نُظهر أن النماذج الحالية للتمثيل لا تمتلك القدرة الكافية على ترميز هذا السياق المُحاط بشكل فعّال، ولهذا نُقدّم نموذجًا تدريبيًا جديدًا، ونُطوّر نماذج التمثيل المُحاطة (SitEmb). ولتقييم طريقة عملنا، قمنا بتكوين مجموعة بيانات لاسترجاع أحداث القصص (book-plot retrieval) مصممة خصيصًا لتقييم القدرة على الاسترجاع السياقي. على هذه المعيار، أظهر نموذج SitEmb-v1 المبني على BGE-M3 أداءً متفوّقًا بشكل كبير على أبرز النماذج الحالية للتمثيل، بما في ذلك عدة نماذج تضم ما يصل إلى 7-8 مليار معلمة، مع امتلاكه فقط مليار معلمة. كما حقق نموذج SitEmb-v1.5 بحجم 8 مليار معلمة تحسنًا في الأداء بمقدار أكثر من 10%، مع إظهار نتائج قوية عبر لغات متعددة وعدد من التطبيقات اللاحقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp