HyperAIHyperAI

Command Palette

Search for a command to run...

VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

الملخص

لقد تطورت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بشكل كبير في دمج الفهم البصري والنصي. ومع ذلك، تظل قدرتها على إنشاء الشيفرة البرمجية من مدخلات متعددة الوسائط محدودة. في هذا العمل، نقدم VisCodex، وهي إطار موحد يدمج بسلاسة بين نماذج الرؤية ونماذج لغة البرمجة، بهدف تمكين نماذج MLLMs من القدرة القوية على إنشاء الشيفرة متعددة الوسائط. باستخدام تقنية دمج النماذج القائمة على متجهات المهام، نُدمج نموذج لغة برمجة حديث ومتطور في هيكل أساسي قوي للرؤية واللغة، مع الحفاظ على كلا المهارتين: الفهم البصري والمهارات المتقدمة في البرمجة. ولدعم التدريب والتقييم، نُقدِّم مجموعة بيانات البرمجة متعددة الوسائط (MCD)، وهي مجموعة واسعة النطاق ومتنوعة تضم 598 ألف عينة، تشمل شيفرة HTML عالية الجودة، وأزواج صور الرسوم البيانية والشيفرة، وأسئلة وأجوبة من StackOverflow مُحسَّنة بصريًا، بالإضافة إلى مشكلات خوارزمية. علاوةً على ذلك، نقترح InfiBench-V، وهو معيار جديد وصعب تم تصميمه خصيصًا لتقييم النماذج على أسئلة برمجة غنية بالصور وواقعية، تتطلب فهمًا دقيقًا للسياق النصي والبصري معًا. تُظهر التجارب الواسعة أن VisCodex تحقق أداءً رائدًا بين نماذج MLLMs المفتوحة المصدر، وتميل إلى التقارب مع النماذج الخاصة مثل GPT-4o، مما يبرز فعالية استراتيجية دمج النماذج التي اقترحناها، فضلًا عن المجموعات الجديدة من البيانات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية | مستندات | HyperAI