HyperAIHyperAI

Command Palette

Search for a command to run...

Nano Banana: نموذج توليد صور ذكي بقدرات هندسة مُدخلات متطورة بدرجة استثنائية

في أغسطس 2025، ظهر نموذج توليد صور مجهول على منصة LMArena برمز "nano-banana"، ليُكشف لاحقًا أنه نموذج Gemini 2.5 Flash Image من جوجل، الذي يُعدّ نموذجًا عكاريًا (autoregressive) يُولد 1290 رمزًا لكل صورة، مقارنةً بـ1024×1024 بكسل. على عكس النماذج التفاضلية الشائعة، يُولّد nano-banana الصور بأسلوب مشابه لـChatGPT، من خلال توليد الرموز (tokens) تباعًا ثم تفكيكها إلى صورة، ما يجعله بطيئًا (30 ثانية للصورة عالية الجودة)، لكنه يتفوق في التزامه بالنص المُدخل (prompt adherence) بشكل ملحوظ. يُمكن الوصول إلى nano-banana مجانًا عبر تطبيق Gemini أو Google AI Studio، حيث تظهر علامة مائية في الزاوية السفلى اليمنى. للمطورين، يوفر جوجل واجهة برمجة تطبيقات (API) تُسمى gemini-2.5-flash-image، بتكلفة 0.04 دولار لكل صورة بحجم 1 ميغابكسل، وهو سعر تنافسي مقارنةً بنماذج التفاضل، ورخيص جدًا مقارنةً بـgpt-image-1 الذي يبلغ سعره 0.17 دولار. أظهرت تجارب متعددة قدرة nano-banana على التفاعل مع أوامر معقدة جدًا. في تجربة تضمنت صورة "كعكة رأس بشرية مصنوعة من الكعك وصوص القيقب"، نجح النموذج في تجسيد التفاصيل الدقيقة: شكل الرأس، تدفق القيقب باتجاهات منطقية، ووجود التوت. كما نجح في تطبيق خمسة تعديلات دفعة واحدة على الصورة نفسها، مثل استبدال التوت بحشوة نعناع وتعديل تجمع القيقب على طبق. أحد أبرز إمكانياته هو القدرة على الاحتفاظ بمواصفات شخصية محددة، حتى في حالات نادرة. عند محاولة توليد صورة لـ"أوغلي سونيك" (Sonic مشوّه من فيلم 2019) يُصافح باراك أوباما، نجح nano-banana في التمييز بينه وبين سونيك العادي، رغم أن النموذج لم يُدرّس عليه من قبل. كما أظهر تحسّنًا ملحوظًا عند إضافة عبارات مثل "صورة غلاف لنيويورك تايمز بجائزة بوليتزر"، مما يشير إلى فهمه للسياقات الثقافية والجمالية. مما يميز nano-banana هو امتداده من نموذج Gemini 2.5 Flash، الذي تم تدريبه على تنسيقات مثل Markdown وJSON، مما يمنحه قدرة فائقة على فهم أوامر معقدة، مثل استخدام أكواد ألوان بالسُّود، أو تحديد عيون مختلفة (heterochromia) بناءً على وصف سابق. وقد أظهر النموذج قدرة على توليد صور مُفصلة لصفحات ويب باستخدام HTML وCSS، رغم وجود أخطاء طفيفة في التنسيق. كما نجح في فهم وتنفيذ أوامر JSON طويلة جدًا (2600 رمز)، لوصف شخصية مزيج من البطل، القبطان، وعامل ستاربكس، مع الحفاظ على التفاصيل الدقيقة مثل نوع القماش، طول الأظافر، ووضع اليد على السيف أو التامبير. رغم أنه غالبًا ما يُنتج صورًا رقمية بدلًا من واقعية فوتوغرافية، إلا أن إضافة عبارات مثل "أسلوب مجلة فانيتي فير" أو "انعكاس الصورة في الدرع" تُحسن النتيجة بشكل كبير. ومع ذلك، هناك نقاط ضعف: النموذج يفشل في نقل الأنماط الفنية (style transfer)، مثل تحويل صورة شخص إلى نمط ستوديو جيبلي، رغم نجاحه في إنشاء صور جديدة بنفس النمط. كما لا يفرض قيودًا على حقوق الملكية، مما يسمح بتوليد صور مزيجة من شخصيات شهيرة دون رفض، مما يثير تساؤلات قانونية محتملة. كما أنه يُعدّ من أكثر النماذج ليونة في إنتاج محتوى غير لائق (NSFW)، رغم وجود مراقبة. في الختام، يُظهر nano-banana أن النماذج العكارية يمكن أن تكون قوية جدًا في التحكم بالتفاصيل، خاصة مع أوامر معقدة ومتعددة الطبقات. ومع أن بعض الميزات لا تزال تُختبر، فإن إمكاناته تفتح آفاقًا جديدة في التوليد الدقيق، خاصة مع تقدم تقنيات هندسة الأوامر (prompt engineering). النموذج لا يُعدّ فقط أداة توليد صور، بل نظامًا ذكيًا قادرًا على فهم السياقات المعقدة، ما يجعله من أبرز التطورات في مجال الذكاء الاصطناعي البصري.

الروابط ذات الصلة

Nano Banana: نموذج توليد صور ذكي بقدرات هندسة مُدخلات متطورة بدرجة استثنائية | القصص الشائعة | HyperAI