HyperAIHyperAI
Back to Headlines

Qwen-Image:突破复杂文本渲染与精准图像编辑边界的新一代视觉基础模型

منذ 20 أيام

أعلنت شركة علي بابا عن إطلاق نموذج Qwen-Image، نموذج أساسي للصور بحجم 20 مليار معامل، يُعدّ خطوة متقدمة في مجال توليد الصور ذات النصوص المعقدة والتعديل الدقيق للصور. يُمكن تجربة النموذج عبر منصة Qwen Chat باختيار خيار "توليد الصور"، حيث يُظهر أداءً متميزًا في معايير متعددة مثل GenEval وDPG وOneIG-Bench للتصوير العام، بالإضافة إلى GEdit وImgEdit وGSO للتعديل الصوري، متفوقًا على النماذج الحالية في جميع هذه المعايير. تميّز النموذج بشكل خاص في معالجة النصوص، خصوصًا النصوص الصينية، حيث تفوق بفارق كبير على النماذج المنافسة في معايير مثل LongText-Bench وChineseWord وTextCraft. وقد أظهر قدرة فائقة على توليد نصوص دقيقة وواقعية في سياقات متنوعة، مثل إنشاء لافتات متعددة في مشهد مُصمم بأسلوب أنمي مييزاكي، مع تفاصيل دقيقة في الأسماء مثل "云存储" و"云计算" و"云模型"، وكتابة "千问" على دلاء نبيذ مع تأثيرات ضوئية وعمق بؤري دقيق. في السياقات الإنجليزية، أظهر النموذج مهارة في توليد نصوص متنوعة، من لافتات متجر كتب إلى عروض تقديمية مفصلة. ففي مثال معقد، أنتج نموذجًا تفاعليًا يحتوي على ستة عناصر نصية مُرتبة بعناية، كل منها يحمل عنوانًا، أيقونة، ونصًا توضيحيًا، مع توازن بصري دقيق بين الوضوح والجمال البصري. كما نجح في توليد نصوص صغيرة جدًا في صورة، مثل رسالة مكتوبة بخط اليد على ورقة صفراء صغيرة في زاوية الصورة، مع الحفاظ على دقة النصوص ووضوحها. في حالات النصوص الطويلة أو المزدوجة اللغات، أظهر النموذج مرونة عالية، حيث تمكّن من توليد فقرة مكتوبة بخط اليد على لوحة زجاجية تتضمن نصًا مختلطًا بين الإنجليزية والصينية، مع الانتقال السلس بين اللغتين دون فقدان السياق أو الجودة. هذه القدرة تُسهم في إنشاء مواد إبداعية مثل لوحات إعلانية، حيث أنتج نموذجًا لفيلم واقعي بعنوان "Imagination Unleashed"، مع عناوين وتفاصيل مكتوبة بدقة عالية، وخلفية مُصممة بأسلوب فني رقمي متقدم. كما أظهر النموذج قدرته على إنشاء عروض تقديمية (PPT) احترافية، حيث تم توليد صفحة مخصصة لشركة بتصميم عصري يجمع بين الألوان الفضائية والخطوط التقنية، مع تضمين أربع صور مُصغّرة مُرفقة بعناوين نصية بالخط الكلاسيكي الصيني، تعبّر عن رموز ثقافية مثل "الخُمّر" و"النَّبات" و"النَّخيل" و"الدَّهْر"، مع توازن بصري دقيق وتفاصيل دقيقة. بالإضافة إلى توليد النصوص، يتمتع Qwen-Image بقدرات عامة في إنشاء صور واقعية أو فنية، بأسلوب أنمي، انطباعي، أو تصميم بسيط، مما يجعله أداة متعددة الاستخدامات للمبدعين والفنانين. كما يدعم تعديل الصور بطرق متقدمة مثل تغيير الأسلوب، إضافة أو حذف عناصر، تعديل النصوص، وتعديل وضعية الشخصيات، حتى للمستخدمين غير المتخصصين. يُعدّ Qwen-Image خطوة مهمة نحو تبسيط إنتاج المحتوى البصري وتمكين مزيد من المستخدمين من الاستفادة من الذكاء الاصطناعي في الإبداع، مع دعوة المجتمع للمشاركة والمساهمة في بناء نظام مفتوح ومستدام للذكاء الاصطناعي التوليدي.

Related Links

Qwen-Image:突破复杂文本渲染与精准图像编辑边界的新一代视觉基础模型 | العناوين الرئيسية | HyperAI