HyperAIHyperAI
منذ 12 أيام

تمثيل متعدد الوسائط للبحث العصبي في الشفرة

Jian Gu, Zimin Chen, Martin Monperrus
تمثيل متعدد الوسائط للبحث العصبي في الشفرة
الملخص

يتعلق البحث في استرجاع الشفرة المعنوية (Semantic Code Search) بعثور أجزاء شفرة ذات صلة معنوية لاستعلام بلغة طبيعية معينة. في النهج المتطورة حديثًا، يتم قياس التشابه المعنوي بين الشفرة والاستعلام من خلال المسافة بين تمثيليهما في الفضاء المتجهي المشترك. في هذه الورقة، ولتحسين هذا الفضاء المتجهي، نقدم طرقًا لتص serialize الشجرة (tree-serialization) على شكل مبسط لشجرة التحليل التراكبي (AST)، ونُنشئ تمثيلًا متعدد الوسائط للبيانات الشفرية. نُجري تجارب واسعة باستخدام مصادر بيانات واحدة كبيرة الحجم ومتعددة اللغات: CodeSearchNet. تُظهر النتائج أن كلاً من تمثيلات الشفرة المُسلسلة شجريًا ونموذج التعلم المتعدد الوسائط يُحسّنان أداء استرجاع الشفرة. في النهاية، نُعرّف مقاييس كمية بديهية موجهة نحو اكتمال المعلومات المعنوية والتركيبية للبيانات الشفرية، لمساعدة الفهم التجريبي للنتائج.

تمثيل متعدد الوسائط للبحث العصبي في الشفرة | أحدث الأوراق البحثية | HyperAI