HyperAI

أطلقت جوجل إمكانية جديدة باسم Agentic Vision ضمن نموذج Gemini 3 Flash، تمثل تطورًا جوهريًا في قدرة النماذج الذكية على فهم الصور. بدلاً من تحليل الصورة كقطعة ثابتة، تحوّل Agentic Vision هذه العملية إلى عملية تفاعلية تشبه التحقيق، حيث يُفعّل النموذج دورة "فكّر، افعل، لاحظ" لاستكشاف الصور خطوة بخطوة. في هذه الدورة، يبدأ النموذج بتحليل الطلب والصورة الأولية، ثم يُعد خطة متعددة المراحل. في المرحلة الثانية، يُولّد ويُنفّذ كود Python لتعديل الصورة — مثل التكبير، التدوير، التقطيع، أو التسمية — أو لتحليلها باستخدام حسابات دقيقة. بعد ذلك، يُعيد النموذج الصورة المُعدّلة إلى نافذة السياق، مما يسمح له بتحليل البيانات الجديدة بدقة أكبر قبل إصدار الإجابة النهائية. تُظهر النتائج أن دمج تنفيذ الكود في Gemini 3 Flash يرفع جودة الأداء بنسبة 5 إلى 10% في معظم اختبارات الرؤية، وذلك بفضل تقليل التخمين وتعزيز الاستناد إلى أدلة بصرية حقيقية. من أبرز التطبيقات العملية: - التكبير والتفصيل: منصة PlanCheckSolver، التي تُحلّل خطط البناء، زادت دقتها بنسبة 5% باستخدام الكود لتقسيم الصور عالية الدقة وتحليل أجزاء محددة مثل أطراف الأسطح أو التفاصيل البنائية، مع تأكيد التزام الشروط القانونية عبر الصور المُعدّلة. - التصنيف البصري والرسم التوضيحي: عند طلب عد أصابع اليد، لا يكتفي النموذج بالوصف، بل يُنشئ كودًا لرسم مربعات محددة حول كل إصبع ووضع أرقام عليها، مما يضمن دقة الحسابات ويُعد "مذكرة بصرية" موثوقة. - الحسابات البصرية والرسم البياني: بدلًا من التخمين عند تحليل الجداول الكثيفة، يُحلّل النموذج البيانات، ويُنفذ كودًا لمعادلة النتائج ورسم مخططات احترافية باستخدام Matplotlib، مما يحوّل عملية التحليل من احتمالية إلى عملية محددة وقابلة للتحقق. تُعد هذه الميزة خطوة نحو نماذج ذكية أكثر تفاعلًا، حيث تُصبح القدرة على تنفيذ أوامر ملموسة جزءًا طبيعيًا من عملية الفهم البصري. في المستقبل، تعمل جوجل على جعل هذه السلوكيات أكثر تلقائية — مثل التكبير التلقائي عند اكتشاف تفاصيل دقيقة — وتوسيع الأدوات المدعومة (مثل البحث عبر الصور أو الإنترنت)، بالإضافة إلى توسيع هذه الميزة إلى نماذج أخرى غير Flash. يمكن للمطورين تجربة Agentic Vision فورًا عبر واجهة برمجة التطبيقات في Google AI Studio وVertex AI، أو من خلال تجربة التطبيق التوضيحي في AI Studio Playground، حيث يُمكن تفعيل "تنفيذ الكود" من أدوات التحليل. تُعد هذه الخطوة نقلة نوعية في تطوير النماذج الذكية، حيث تنتقل من مجرد تفسير الصور إلى تفاعل فعّال معها.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

Command Palette

Gemini 3 Flash يُطلق قدرة "الرؤية العاملة" لتحليل الصور بذكاء وتنفيذ أكواد لتحسين الدقة

الروابط ذات الصلة

Command Palette

Gemini 3 Flash يُطلق قدرة "الرؤية العاملة" لتحليل الصور بذكاء وتنفيذ أكواد لتحسين الدقة

الروابط ذات الصلة

Command Palette

Gemini 3 Flash يُطلق قدرة "الرؤية العاملة" لتحليل الصور بذكاء وتنفيذ أكواد لتحسين الدقة

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد