تمثيل متعدد الوسائط للبحث العصبي في الشفرة

يتعلق البحث في استرجاع الشفرة المعنوية (Semantic Code Search) بعثور أجزاء شفرة ذات صلة معنوية لاستعلام بلغة طبيعية معينة. في النهج المتطورة حديثًا، يتم قياس التشابه المعنوي بين الشفرة والاستعلام من خلال المسافة بين تمثيليهما في الفضاء المتجهي المشترك. في هذه الورقة، ولتحسين هذا الفضاء المتجهي، نقدم طرقًا لتص serialize الشجرة (tree-serialization) على شكل مبسط لشجرة التحليل التراكبي (AST)، ونُنشئ تمثيلًا متعدد الوسائط للبيانات الشفرية. نُجري تجارب واسعة باستخدام مصادر بيانات واحدة كبيرة الحجم ومتعددة اللغات: CodeSearchNet. تُظهر النتائج أن كلاً من تمثيلات الشفرة المُسلسلة شجريًا ونموذج التعلم المتعدد الوسائط يُحسّنان أداء استرجاع الشفرة. في النهاية، نُعرّف مقاييس كمية بديهية موجهة نحو اكتمال المعلومات المعنوية والتركيبية للبيانات الشفرية، لمساعدة الفهم التجريبي للنتائج.