Command Palette
Search for a command to run...
Qiushi Sun Jingyang Gong Yang Liu Qiaosheng Chen Lei Li Kai Chen Qipeng Guo Ben Kao Fei Yuan

الملخص
يتم توسيع نطاق ذكاء الشفرة العصبية بسرعة ليتجاوز الشفرة المصدرية القائمة على النصوص، ليشمل المخرجات البصرية الغنية التي تُولِّدُها البرامج. يُعدّ البُعد البصري حاسمًا لتطبيقات متقدمة مثل إنشاء المحتوى المرن وتحرير التمثيلات البيانية بدقة وفقًا لتعليمات البرمجة. ومع ذلك، تعرّض التقدّم لعوائق ناتجة عن ندرة البيانات متعددة الوسائط عالية الجودة، وهي عقبة تُعزى إلى التحديات المرتبطة بعملية التوليد وتقييم الجودة. لمعالجة هذه التحديات، نقدّم مساهمات من منظورين: البيانات والنمذجة. نُقدّم أولًا أداة متكاملة لتصنيع البيانات، تُستخدَم فيها التآزر المتبادل بين وسائط البيانات لاستخراج كمية كبيرة من البيانات عالية الجودة، تغطي من الرسوم البيانية القياسية إلى واجهات برمجية تفاعلية معقدة ورسوم متحركة مُشَغَّلة بالكود. وباستخدام هذه الأداة، نُنشئ JanusCode-800K، وهو أكبر مجموعة بيانات متعددة الوسائط في مجال الشفرة البرمجية حتى الآن. وتمكّن هذه المجموعة من تدريب نماذجنا JanusCoder وJanusCoderV، التي تُشكّل واجهة موحدة بين البرمجة والصورة، تُتيح إنشاء الشفرة من تعليمات نصية، أو مدخلات بصرية، أو مزيج من الطرفين. يُعدّ نموذجنا المُوحَّد تحوّلًا جذريًا عن النماذج الحالية التي تُصمم نماذج متخصصة لكل مهمة منفصلة. وتشير التجارب الواسعة على مهام برمجية مركّزة على النصوص، ومهمات مركّزة على الرؤية، إلى الأداء المتفوّق لسلسلة نماذج JanusCoder، حيث تقترب نماذجنا ذات الحجم 7B إلى 14B من أداء النماذج التجارية، بل تفوقها أحيانًا. علاوةً على ذلك، تقدّم التحليلات المعمّقة رؤى جوهرية حول التوفيق بين المنطق البرمجي وتعبيره البصري. ستصبح الشفرة البرمجية ونقطة التوقف (checkpoints) متاحة على: https://github.com/InternLM/JanusCoder.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.