منذ 7 أيام

استرجاع باستخدام التشابهات المستفادة

Bailu Ding, Jiaqi Zhai

الملخص

يلعب الاسترجاع دورًا أساسيًا في أنظمة التوصية، والبحث، ومعالجة اللغة الطبيعية (NLP)، من خلال العثور بكفاءة على العناصر ذات الصلة ضمن مجموعة كبيرة من البيانات استجابةً لاستعلام معين. وقد استُخدمت جداءات النقطة (Dot products) على نطاق واسع كدالة تشابه في هذه المهام، بفضل خوارزميات البحث عن أقصى جداء داخلي (MIPS) التي تتيح الاسترجاع بكفاءة. ومع ذلك، فإن الخوارزميات الحديثة الأفضل في مجال الاسترجاع قد انتقلت إلى استخدام دوال تشابه مُتعلّمة. وتتضمن هذه الأساليب المتقدمة تضمينات استعلام متعددة، وشبكات عصبية معقدة، وفك تشفير معرفات العناصر مباشرةً عبر خوارزمية البحث بالشريط (beam search)، بالإضافة إلى حلول هجينة. للأسف، لا توجد حاليًا حلول فعّالة للاسترجاع في هذه البيئات المتقدمة. ويهدف عملنا إلى سد هذه الفجوة من خلال دراسة تقنيات استرجاع فعّالة تستخدم دوال تشابه مُتعلّمة قوية التعبير. ونُثبت أن مزيج اللوغات (Mixture-of-Logits - MoL) يمكن أن يكون مُقرّبًا عامًا (universal approximator) لدوال التشابه، ونُظهر تجريبيًا قدرة MoL على التعبير عن هذه الدوال بفعالية، مما يؤدي إلى أداء متفوّق في سيناريوهات استرجاع متنوعة. كما نقترح تقنيات لاسترجاع نتائج تقريبية ضمن أعلى k نتيجة باستخدام MoL، مع ضمان حدود خطأ ضيقة. ومن خلال تجارب مكثفة، نُظهر أن MoL، المُعزّز بخسارة متوازنة تُعتمد على المعلومات التبادلية (mutual information-based load balancing loss) التي نقترحها، يُحقّق نتائج جديدة قياسية في سيناريوهات متنوعة، تشمل نماذج الاسترجاع التسلسلي في أنظمة التوصية، وتحسين النماذج اللغوية لأسئلة الإجابة. كما أن خوارزمياتنا للاسترجاع التقريبي للـ top-$k$ تتفوّق على البدائل بنسبة تصل إلى 66 مرة في زمن الاستجابة (latency)، مع الحفاظ على معدل استرجاع يزيد عن 0.99 مقارنةً بالخوارزميات الدقيقة.