هل يمكن للنماذج اللغوية الكبيرة الاستفادة الفعالة من المعلومات الهيكلية للرسوم البيانية من خلال المدخلات، ولماذا؟

تكتسب النماذج اللغوية الكبيرة (LLMs) اهتمامًا متزايدًا بفضل قدرتها على معالجة الرسوم البيانية التي تحتوي على سمات نصية غنية، وخاصة بطريقة الصفر-مُحاكاة (zero-shot). تُظهر الدراسات الحديثة أن النماذج اللغوية الكبيرة تحقق أداءً جيدًا في تصنيف النصوص على مجموعات بيانات شائعة للرسوم البيانية الغنية بالنصوص، ويمكن تحسين هذا الأداء عن طريق إضافة معلومات بنائية مُشفّرة على شكل لغة طبيعية إلى النصوص (prompts). نهدف إلى فهم سبب تحسين دمج المعلومات البنائية المتأصلة في بيانات الرسوم البيانية لأداء النماذج اللغوية الكبيرة في التنبؤ. أولاً، نستبعد مخاوف التسريب البيانات من خلال إعداد مجموعة بيانات جديدة خالية من التسريبات، وإجراء تحليل مقارن مع مجموعة بيانات كانت شائعة سابقًا. ثانيًا، نظرًا لأن الدراسات السابقة كانت تُشفر الرسم البياني للعقدة المركزية (ego-graph) من خلال وصف هيكل الرسم البياني بلغة طبيعية، نطرح السؤال التالي: هل تفهم النماذج اللغوية الكبيرة هيكل الرسم البياني وفقًا لنية مصممي النصوص (prompts)؟ ثالثًا، نستكشف سبب تحسن أداء النماذج اللغوية الكبيرة بعد دمج المعلومات البنائية. تُظهر استكشافاتنا لهذه الأسئلة أن (أ) لا يوجد دليل ملموس على أن أداء النماذج اللغوية الكبيرة يُعزى بشكل كبير إلى تسريب البيانات؛ (ب) بدلًا من فهم النصوص كهيكل رسم بياني كما كان مقصودًا من مصممي النصوص، تميل النماذج إلى معالجة هذه النصوص كفقرات سياقية؛ (ج) فإن العناصر الأكثر فعالية في الجوار المحلي المضمنة في النصوص هي العبارات المرتبطة بعلامة العقدة، وليس هيكل الرسم البياني نفسه.