HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

برمجة الرسومات الرمزية باستخدام نماذج اللغة الكبيرة

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

برمجة الرسومات الرمزية باستخدام نماذج اللغة الكبيرة

الملخص

تتفوق النماذج اللغوية الكبيرة (LLMs) في توليد البرامج، لكن قدرتها على إنتاج برامج رسومية رمزية (SGPs) التي تُحوَّل إلى محتوى بصري دقيق ما زالت موضع استكشاف محدود. نُجري دراسة حول البرمجة الرمزية للرسومات، حيث يكون الهدف هو توليد برنامج رسوميات رمزي (SGP) من وصف بلغة طبيعية. ويُعد هذا المهمة أيضًا نافذة لفهم كيفية فهم النماذج اللغوية الكبيرة للعالم البصري، من خلال تحفيزها على إنتاج صور مُرسَمة من برامج الرسوميات الرمزية. ونركز في هذا البحث على نوع معين من برامج الرسوميات الرمزية، وهو الرسومات المتجهة القابلة للتوسع (SVG). نبدأ بتحليل مدى قدرة النماذج اللغوية الكبيرة على توليد برامج الرسوميات الرمزية. ولتحقيق ذلك، نقدّم SGP-GenBench، وهو معيار شامل يغطي دقة الكائنات، ودقة المشهد، والتركيبية (ربط السمات، والعلاقات المكانية، والقدرة العددية). وعند تطبيق هذا المعيار، نكتشف أن النماذج المتطورة ذات الملكية الخاصة تتفوق بشكل كبير على النماذج المفتوحة المصدر، كما أن الأداء يرتبط بشكل جيد بالقدرات العامة في البرمجة. مُحفَّزين بهذا الفجوة، نسعى إلى تحسين قدرة النماذج اللغوية الكبيرة على توليد برامج الرسوميات الرمزية. ونُقدّم منهجية تعتمد على التعلم بالتعزيز (RL) مع مكافآت قابلة للتحقق، حيث يضمن "بوابة الصيغة الصالحة" إنتاج ملفات SVG قابلة للعرض، بينما يُطبَّق "مكافأة متعددة الوسائط" لتوحيد النص والصورة المُرسَمة باستخدام مشغلات بصرية قوية (مثل SigLIP للنص-الصورة، وDINO للصورة-الصورة). وعند تطبيق هذه الطريقة على نموذج Qwen-2.5-7B، نلاحظ تحسّنًا ملحوظًا في جودة ودقة البرمجة الرمزية للرسومات، بحيث تصل الأداء إلى مستوى يوازي النظم الرائدة. كما نُجري تحليلًا ديناميكيًا للتدريب، ونُظهر أن التعلم بالتعزيز يؤدي إلى (أ) تجزئة أكثر دقة للكائنات إلى وحدات أساسية قابلة للتحكم، و(ب) تفاصيل سياقية تُحسّن انسجام المشهد. تُظهر نتائجنا أن البرمجة الرمزية للرسومات تُقدّم نظرة دقيقة وقابلة للتفسير حول التموضع متعدد الوسائط.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
برمجة الرسومات الرمزية باستخدام نماذج اللغة الكبيرة | الأوراق البحثية | HyperAI