"آلي巴巴 تطلق Qwen-VLo: نموذج متعدد الوسائط يجمع بين الفهم والإبداع البصري والنسقي"
فريق قوين من علي بابا يطلق قوين-فلو: نموذج موحد للفهم والتكوين متعدد الوسائط أطلق فريق قوين التابع لشركة علي بابا نموذج قوين-فلو، وهو إضافة جديدة إلى عائلة النماذج التي طورتها الشركة، مصمم لتوحيد الفهم والتكوين متعدد الوسائط ضمن إطار عمل واحد. يعتبر هذا النموذج محركًا إبداعيًا قويًا يمكن المستخدمين من إنشاء، تحرير وتحسين المحتوى البصري عالي الجودة من النصوص، الرسومات الأولية وأوامر اللغة الطبيعية باللغات المختلفة وبطريقة تكوين سيناريوات خطوة بخطوة. يمثل هذا التطور قفزة كبيرة في مجال الذكاء الصناعي متعدد الوسائط، مما يجعله مناسبًا للغاية للمصممين، المسوقين، منشئي المحتوى والمعلمين. التوحيد بين الرؤية واللغة يتبنى قوين-فلو تطوير النموذج السابق قوين-في إل، الذي كان يركز على فهم اللغة والرؤية البصرية، بإضافة القدرة على إنشاء صور. يتميز هذا النموذج بتكامل الوسائط البصرية والنصية في كلا الاتجاهين؛ فهو قادر على تفسير الصور وإنتاج وصفات نصية ذات صلة أو الاستجابة للحث البصري، كما يمكنه إنتاج صور بناءً على تعليمات نصية أو رسومات أولية. يمكّن هذا التدفق الثنائي من التفاعل السلس بين الوسائط، مما يحسّن عمليات العمل الإبداعي. المزايا الرئيسية لقوين-فلو إنشاء بصري من المفاهيم إلى اللمسات الأخيرة: يدعم قوين-فلو إنشاء صور عالية الدقة من مدخلات خام مثل الحوافز النصية أو الرسومات الأولية البسيطة. يفهم النموذج المفاهيم مجردة ويحوّلها إلى صور مصقلة ومتناسقة جمالياً. تعد هذه القدرة مثالية لمرحلة التصور المبكرة في التصميم والعلامات التجارية. تحرير بصري فوري: يتيح قوين-فلو للمستخدمين تحسين الصور تدريجيًا باستخدام أوامر اللغة الطبيعية، بتعديل مواقع الأشياء، الإضاءة، مواضيع الألوان والتكوين. يبسط هذا المُقدِّم مهام مثل تعديل صور المنتجات أو تخصيص الإعلانات الرقمية، مما يحذف الحاجة إلى أدوات التحرير اليدوية. الفهم متعدد الوسائط واللغات: تم تدريب قوين-فلو على دعم اللغات المتعددة، مما يتيح للأشخاص ذوي الخلفيات اللغوية المختلفة التفاعل مع النموذج. يجعل هذا من النموذج مناسبًا للنشر العالمي في صناعات مثل التجارة الإلكترونية، النشر والتعليم. تكوين السيناريوهات بشكل تدريجي: بدلاً من إنتاج المشاهد المعقدة في دفعة واحدة، يمكّن قوين-فلو من التكوين التدريجي. يمكن للمستخدمين توجيه النموذج خطوة بخطوة—بإضافة عناصر، تحسين التفاعلات وتعديل التخطيطات تدريجياً. هذا يشبه الإبداع البشري الطبيعي ويحسن السيطرة على الناتج من قبل المستخدم. تحسينات في البنية والتدريب رغم عدم تحديد تفاصيل البنية الفنية بشكل عميق في المدونة العامة، فمن المرجح أن يستند قوين-فلو على البنية القائمة على تحويلات (Transformers) من سلسلة قوين-في إل. تركز التحسينات على استراتيجيات دمج الانتباه عبر الوسائط، خطوط التحسين التكيفية ودمج العروض المهيكلة لتحسين الترسيخ المكاني والمعجمي. تشمل بيانات التدريب أزواج صورة-نص متعددة اللغات، رسومات أولية مع حقائق بصرية وتصوير منتجات حقيقي. يسمح هذا التجميع المتنوع لقوين-فلو بالتفوق في مهام مثل إنشاء التكوينات، تحسين التخطيطات وإنشاء الوصفات البصرية. حالات الاستخدام المستهدفة التصميم والتسويق: القدرة على تحويل المفاهيم النصية إلى صور مصقلة تجعل قوين-فلو مثاليًا لإنشاء الإعلانات الإبداعية، سبورتات السرد، نماذج المنتجات ومواد الترويج. التعليم: يمكن للمعلمين استخدام النموذج لتوضيح المفاهيم مجردة (مثل العلوم، التاريخ والفن) بطريقة تفاعلية. يعزز الدعم اللغوي الوصولية في الصفوف الدراسية متعددة اللغات. التجارة الإلكترونية والتجزئة: يمكن للأصحاب عبر الإنترنت استخدام النموذج لإنشاء صور المنتجات، تعديل الصور أو تخصيص التصاميم حسب المنطقة. وسائل التواصل الاجتماعي وإنشاء المحتوى: يوفر قوين-فلو لإنتاج المحتوى السريع ذي الجودة العالية للمؤثرين ومنشئي المحتوى، دون الحاجة إلى الاعتماد على البرمجيات التقليدية للتصميم. الفوائد الرئيسية يتميز قوين-فلو في مجال النماذج متعددة الوسائط الكبيرة (LMM) بتقديمه: دعم الإطارات التكرارية للتغذية الراجعة وتحريرات دقيقة، وهي ضرورية لإنتاج محتوى احترافي. القدرة على التكيف مع مهام مختلفة بشكل فعال. سهولة الاستخدام والمرونة في التعامل مع المدخلات المتعددة. الخلاصة يحقق نموذج قوين-فلو من شركة علي بابا تقدمًا ملموسًا في مجال الذكاء الصناعي متعدد الوسائط من خلال دمج قدرات الفهم والإنشاء في نموذج متكامل وتفاعلي. يجمع بين المرونة، الدعم اللغوي المتعدد والتكوين التدريجي، مما يجعله أداة قيمة لصناع المحتوى في مجموعة متنوعة من الصناعات. مع زيادة الطلب على تقارب المحتوى البصري واللغوي، يضع قوين-فلو نفسه كمساعد إبداعي قابل للتوسع ومجهز للتبني العالمي. لمزيد من التفاصيل الفنية، يمكنك زيارة الصفحة الرسمية للنموذج. يُنسب الفضل في هذا البحث إلى باحثي المشروع. إذا كنت مهتمًا بالموضوع، يمكنك متابعتنا على تويتر وانضمام إلى منتدى Reddit الخاص بنا الذي يضم أكثر من 100,000 متابع في مجال الذكاء الآلي، كما يمكنك الاشتراك في نشرتنا الإخبارية.