Command Palette
Search for a command to run...
تحسين التكرار المتكرر لتحويل الرسوم البيانية إلى كود عبر التعليمات المهيكلة
Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

الملخص
في الآونة الأخيرة، اجتذبت النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) المزيد من الاهتمام البحثي بفضل قدراتها القوية على فهم الصور. رغم تحقيقها لنتائج مثيرة للإعجاب في مهام مختلفة مرتبطة بالرؤية، فإن أدائها في مهمة توليد الكود من الرسم البياني لا يزال دون المستوى الأمثل. تتطلب هذه المهمة من النماذج اللغوية الكبيرة متعددة الوسائط إنتاج كود قابل للتنفيذ يمكنه إعادة إنشاء رسم بياني معين، مما يتطلب ليس فقط فهمًا دقيقًا للصور ولكن أيضًا ترجمة دقيقة للعناصر البصرية إلى كود منظم. غالبًا ما يؤدي طلب مباشر من النماذج اللغوية الكبيرة متعددة الوسائط أداء هذه المهمة المعقدة إلى نتائج غير مرضية. لحل هذه التحديات، نقترح {ChartIR}، وهي طريقة تكرارية لتحسين الأداء تعتمد على التعليمات المنظمة. أولاً، نفصل بين مهمتين: فهم الصور وترجمة الكود. لتحقيق جزء فهم الصور، صممنا نوعين من التعليمات المنظمة: الوصف والاختلاف. تعكس التعليمات الوصفية العناصر البصرية للرسم البياني المرجعي، بينما تعكس التعليمات الاختلافية الفروقات بين الرسم البياني المرجعي والرسم البياني المنتج. تعمل هذه التعليمات على تحويل الخصائص البصرية إلى تمثيلات لغوية بشكل فعال، مما يسهل عملية ترجمة الكود اللاحقة. ثانيًا، نفكك خط أنابيب إنشاء الرسم البياني الشامل إلى مرحلتين: توليد الكود الأولي وتحسين الأداء التكراري، مما يتيح تحسين التدرج النهائي للإنتاج بشكل تدريجي. تظهر النتائج التجريبية أن طريquetنا تتفوق على الطرق الأخرى في كل من النموذج المفتوح المصدر Qwen2-VL والنموذج المغلق المصدر GPT-4o.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.