منذ 6 أشهر

الملخص

لقد تطورت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بشكل كبير في دمج الفهم البصري والنصي. ومع ذلك، تظل قدرتها على إنشاء الشيفرة البرمجية من مدخلات متعددة الوسائط محدودة. في هذا العمل، نقدم VisCodex، وهي إطار موحد يدمج بسلاسة بين نماذج الرؤية ونماذج لغة البرمجة، بهدف تمكين نماذج MLLMs من القدرة القوية على إنشاء الشيفرة متعددة الوسائط. باستخدام تقنية دمج النماذج القائمة على متجهات المهام، نُدمج نموذج لغة برمجة حديث ومتطور في هيكل أساسي قوي للرؤية واللغة، مع الحفاظ على كلا المهارتين: الفهم البصري والمهارات المتقدمة في البرمجة. ولدعم التدريب والتقييم، نُقدِّم مجموعة بيانات البرمجة متعددة الوسائط (MCD)، وهي مجموعة واسعة النطاق ومتنوعة تضم 598 ألف عينة، تشمل شيفرة HTML عالية الجودة، وأزواج صور الرسوم البيانية والشيفرة، وأسئلة وأجوبة من StackOverflow مُحسَّنة بصريًا، بالإضافة إلى مشكلات خوارزمية. علاوةً على ذلك، نقترح InfiBench-V، وهو معيار جديد وصعب تم تصميمه خصيصًا لتقييم النماذج على أسئلة برمجة غنية بالصور وواقعية، تتطلب فهمًا دقيقًا للسياق النصي والبصري معًا. تُظهر التجارب الواسعة أن VisCodex تحقق أداءً رائدًا بين نماذج MLLMs المفتوحة المصدر، وتميل إلى التقارب مع النماذج الخاصة مثل GPT-4o، مما يبرز فعالية استراتيجية دمج النماذج التي اقترحناها، فضلًا عن المجموعات الجديدة من البيانات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VisCodex: توليد رموز متعددة الوسائط موحد من خلال دمج نماذج الرؤية والنماذج البرمجية

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters