HyperAIHyperAI
منذ 10 أيام

VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية

Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية
الملخص

لقد تطورت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بشكل كبير في دمج الفهم البصري والنصي. ومع ذلك، تظل قدرتها على إنشاء الشيفرة البرمجية من مدخلات متعددة الوسائط محدودة. في هذا العمل، نقدم VisCodex، وهي إطار موحد يدمج بسلاسة بين نماذج الرؤية ونماذج لغة البرمجة، بهدف تمكين نماذج MLLMs من القدرة القوية على إنشاء الشيفرة متعددة الوسائط. باستخدام تقنية دمج النماذج القائمة على متجهات المهام، نُدمج نموذج لغة برمجة حديث ومتطور في هيكل أساسي قوي للرؤية واللغة، مع الحفاظ على كلا المهارتين: الفهم البصري والمهارات المتقدمة في البرمجة. ولدعم التدريب والتقييم، نُقدِّم مجموعة بيانات البرمجة متعددة الوسائط (MCD)، وهي مجموعة واسعة النطاق ومتنوعة تضم 598 ألف عينة، تشمل شيفرة HTML عالية الجودة، وأزواج صور الرسوم البيانية والشيفرة، وأسئلة وأجوبة من StackOverflow مُحسَّنة بصريًا، بالإضافة إلى مشكلات خوارزمية. علاوةً على ذلك، نقترح InfiBench-V، وهو معيار جديد وصعب تم تصميمه خصيصًا لتقييم النماذج على أسئلة برمجة غنية بالصور وواقعية، تتطلب فهمًا دقيقًا للسياق النصي والبصري معًا. تُظهر التجارب الواسعة أن VisCodex تحقق أداءً رائدًا بين نماذج MLLMs المفتوحة المصدر، وتميل إلى التقارب مع النماذج الخاصة مثل GPT-4o، مما يبرز فعالية استراتيجية دمج النماذج التي اقترحناها، فضلًا عن المجموعات الجديدة من البيانات.

VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية | أحدث الأوراق البحثية | HyperAI