Yiying Yang Wei Cheng Sijin Chen Xianfang Zeng Fukun Yin Jiaxu Zhang Liao Wang Gang Yu Xingjun Ma Yu-Gang Jiang

الملخص
تُعد صيغة الرسومات المتجهة القابلة للتوسيع (SVG) صيغة صور مهمة تم اعتمادها على نطاق واسع في التصميم الجرافيكي بفضل استقلالها عن الدقة والقابلية للتعديل. وقد لاقت دراسة إنشاء صور SVG عالية الجودة اهتمامًا مستمرًا من قبل المصممين والباحثين في مجتمع الذكاء الاصطناعي للإنتاج المحتوى (AIGC). ومع ذلك، فإن الطرق الحالية要么 تُنتج نتائج غير منظمة بتكاليف حسابية كبيرة،要么 تقتصر على إنشاء أيقونات ثنائية اللون ذات هياكل مبسطة جدًا. ولإنتاج صور SVG عالية الجودة ومركبة، نقترح منهجية "أومنيSVG" (OmniSVG)، وهي إطار موحد يستخدم نماذج الرؤية واللغة المُدرَّبة مسبقًا (VLMs) لإنجاز توليد صور SVG متعددة الوسائط بشكل مباشر من البداية إلى النهاية. وباستخدام ترميز أوامر وتنسيقات SVG إلى رموز منفصلة، تفصل أومنيSVG بين المنطق الهيكلي والهندسة على المستوى المنخفض، مما يُسهم في تدريب فعّال مع الحفاظ على قدرة SVG المعقدة على التعبير الدقيق. ولتعزيز تطوير توليد صور SVG، نقدّم مجموعة بيانات متعددة الوسائط "MMSVG-2M"، التي تضم مليوني عنصر SVG مُعلَّم بشكل غني، إلى جانب بروتوكول تقييم معياري لمهمات توليد SVG الشرطي. وأظهرت التجارب الواسعة أن أومنيSVG تتفوّق على الطرق الحالية، وتميّز بقدرتها الكبيرة على التكامل في سير العمل المهنية لتصميم SVG.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.