منذ 17 أيام

VulScribeR: استكشاف تعزيز الثغرات القائمة على RAG باستخدام نماذج LLM

Seyed Shayan Daneshvar, Yu Nong, Xu Yang, Shaowei Wang, Haipeng Cai

الملخص

لكشف الثغرات يُعد أمرًا بالغ الأهمية لضمان أمن البرمجيات، إلا أن كاشفات الثغرات المستندة إلى التعلم العميق (DLVD) تواجه نقصًا في البيانات، مما يحد من فعاليتها. يمكن لتعزيز البيانات أن يخفف من هذه المشكلة، لكن تعزيز الكود الضعيف يُعد تحديًا معقدًا ويستدعي حلًا توليديًا يحافظ على وجود الثغرة. اقتصرت الدراسات السابقة على إنشاء عينات تحتوي على جملة واحدة أو أنواع محددة من الثغرات. في الآونة الأخيرة، تم استخدام النماذج اللغوية الكبيرة (LLMs) لحل مهام متعددة في توليد وفهم الكود، مع نتائج ملهمة، خاصة عند دمجها مع تقنية التوليد المدعوم بالاسترجاع (RAG). لذلك، نقترح VulScribeR، وهو حل جديد يستند إلى النماذج اللغوية الكبيرة، ويستفيد من قوالب مُعدّة بعناية لتعزيز مجموعات البيانات المُعرضة للثغرات. وبشكل أكثر تحديدًا، نستكشف ثلاث استراتيجيات لتعزيز الثغرات ذات الجملة الواحدة والمتعددة باستخدام النماذج اللغوية الكبيرة، وهي: التحوّل (Mutation)، والحقن (Injection)، والتمديد (Extension). أظهرت تقييماتنا الشاملة على أربع مجموعات بيانات للثغرات وأربع نماذج DLVD، باستخدام ثلاث نماذج لغوية كبرى، أن منهجنا يتفوق على طريقتي SOTA (Vulgen و VGX) والعينة العشوائية المكررة (ROS) بنسبة 27.48% و27.93% و15.41% في مقياس F1-score، مع متوسط 5000 عينة مُولّدة مُعرضة للثغرات، وبنسب تفوق تصل إلى 53.84% و54.10% و69.90% و40.93% عند استخدام 15000 عينة مُولّدة. يُظهر منهجنا إمكانية تطبيقه على نطاق واسع لتعزيز البيانات من خلال إنتاج 1000 عينة بتكاليف تصل إلى 1.88 دولار أمريكي فقط.