توسيع ViT/MLP-Mixer إلى الرسوم البيانية

أظهرت الشبكات العصبية الرسومية (GNNs) إمكانات كبيرة في مجال تعلم تمثيل الرسوم البيانية. تعتمد الشبكات العصبية الرسومية القياسية على آلية تبادل الرسائل المحلية التي تُوزع المعلومات عبر المجال الكامل للرسم البياني من خلال تجميع عدة طبقات. يعاني هذا النموذج من قيود رئيسية، وهي "الضغط الزائد" (over-squashing) وسوء التماسك على المدى الطويل، ويمكن التغلب على هذه المشكلات باستخدام الانتباه العالمي، لكن ذلك يزيد بشكل كبير من التكلفة الحسابية إلى التعقيد التربيعي. في هذه الدراسة، نقترح نهجًا بديلًا للتغلب على هذه القيود الهيكلية من خلال الاستفادة من هياكل ViT وMLP-Mixer التي تم تقديمها في مجال الرؤية الحاسوبية. نُقدّم فئة جديدة من الشبكات العصبية الرسومية تُسمى Graph ViT/MLP-Mixer، والتي تتميز بثلاث خصائص رئيسية. أولاً، تمكّن هذه الشبكات من التقاط الاعتماديات الطويلة المدى والتخفيف من مشكلة الضغط الزائد، كما أظهرت ذلك نتائج تجريبية على مجموعتي بيانات Long Range Graph Benchmark وTreeNeighbourMatch. ثانيًا، تقدم كفاءة أفضل من حيث السرعة واستهلاك الذاكرة، حيث يبلغ تعقيدها خطيًا بالنسبة لعدد العقد والحواف، مما يفوق نماذج Graph Transformer ونماذج GNN التعبيرية ذات الصلة. ثالثًا، تُظهر قدرة عالية على التعبير من حيث مطابقة الرسوم البيانية (graph isomorphism)، حيث يمكنها التمييز بين رسومات غير متماثلة على الأقل حتى المستوى 3-WL. تم اختبار بنية نموذجنا على أربع مجموعات بيانات محاكاة وسبع مجموعات بيانات واقعية، وأظهرت نتائج متميزة وتنافسية في جميعها. يمكن الوصول إلى الكود المصدري لضمان إعادة التكرار عبر الرابط التالي: \url{https://github.com/XiaoxinHe/Graph-ViT-MLPMixer}.