دمج انتشار العلامات والنموذج البسيط يتفوق على شبكات العصبونات الرسومية

شبكات الجراف العصبية (GNNs) هي التقنية المهيمنة لتعلم البيانات على الرسوم البيانية. ومع ذلك، هناك فهم نسبيًا قليل حول أسباب نجاح شبكات الجراف العصبية في التطبيقات العملية وما إذا كانت ضرورية لتحقيق الأداء الجيد. في هذا البحث، نوضح أن对于我们来说,对于许多标准的图半监督节点分类基准测试,通过结合忽略图结构的浅层模型以及两种利用标签结构相关性的简单后处理步骤,我们可以超过或匹配最先进的GNNs的性能:(i) 一种“误差相关性”,它将训练数据中的残差误差传播以纠正测试数据中的误差;(ii) 一种“预测相关性”,它平滑测试数据上的预测结果。我们将这一整体过程称为校正和平滑 (C&S),后处理步骤是通过对早期基于图的半监督学习方法中的标准标签传播技术进行简单修改来实现的。我们的方法在各种基准测试中超过了或几乎匹配了最先进的GNNs的性能,同时仅使用了少量参数且运行速度提高了几个数量级。例如,在OGB-Products数据集上,我们以比最佳已知GNN性能少137倍的参数和超过100倍更短的训练时间超过了其表现。我们方法的性能突显了将标签信息直接纳入学习算法(如传统技术所做的那样)可以带来轻松且显著的性能提升。我们还可以将这些技术整合到大型GNN模型中,提供适度的增益。我们在 https://github.com/Chillee/CorrectAndSmooth 上提供了OGB结果的代码。为了更好地符合阿拉伯语表达习惯,以下是优化后的翻译:شبكات الجراف العصبية (GNNs) هي التقنية المهيمنة لتعلم البيانات على الرسوم البيانية. ومع ذلك، فإن الفهم حول أسباب نجاح هذه الشبكات في التطبيقات العملية وما إذا كانت ضرورية لتحقيق الأداء الجيد لا يزال محدودًا. في هذا البحث، نوضح أنه بالنسبة لعديد من المعايير القياسية للتصنيف النقطي التراندوكتيفي، يمكننا تجاوز أو تحقيق أداء مماثل لأفضل شبكات الجراف العصبية الحديثة من خلال دمج نماذج سطحية تتجاهل بنية الرسم البياني مع خطوتين بسيطتين بعد المعالجة تستغلان الارتباط في بنية التسميات: (i) "ارتباط الخطأ" الذي ينتشر فيه الأخطاء المتبقية في بيانات التدريب لتصحيح الأخطاء في بيانات الاختبار و (ii) "ارتباط التنبؤ" الذي يقوم بتنعيم التنبؤات على بيانات الاختبار. نطلق على هذه العملية الكلية اسم "تصحيح وتنعيم" (C&S)، وتتم خطوات ما بعد المعالجة عبر تعديلات بسيطة على تقنيات انتشار التسميات القياسية من طرق التعلم شبه الإشرافي القائمة على الرسوم البيانية المبكرة. تتجاوز طريقتنا أو تقترب بشكل كبير من أداء أفضل شبكات الجراف العصبية الحديثة على مجموعة متنوعة واسعة من المعايير القياسية، باستخدام جزء صغير فقط من المعلمات وبسرعة تشغيل أسرع بمراحل عديدة. على سبيل المثال، حققنا أداءً أفضل من أفضل أداء معروف لـ GNNs على مجموعة بيانات OGB-Products بأقل بمقدار 137 مرة من عدد المعلمات وبوقت تدريب أقل بمقدار أكثر من 100 مرة. يبرز أداء طرقنا كيف يمكن أن يؤدي دمج المعلومات التسموية مباشرة في خوارزمية التعلم (كما تم فعله في التقنيات التقليدية) إلى زيادة سهلة ومهمة في الأداء. كما يمكننا دمج تقنياتنا في نماذج GNN الكبيرة لتوفير زيادة معتدلة في الأداء. رمز البرمجيات الخاص بنتائج OGB متاح على https://github.com/Chillee/CorrectAndSmooth.