Gemini يجمع بين الأتمتة المذهلة والأداء البطيء
أطلقت جوجل ميزة أتمتة المهام الجديدة في مساعد Gemini الذكي، والتي تسمح للمساعد باتخاذ زمام السيطرة واستخدام تطبيقات الهاتف نيابة عن المستخدم. تجارب أولية شملت جهاز Pixel 10 Pro و Galaxy S26 Ultra أظهرت أن الميزة لا تزال في المرحلة التجريبية ومحدودة حالياً بمجموعة صغيرة من تطبيقات توصيل الطعام وخدمات rideshare. على الرغم من أن الأداء بطيء ومليء بالعثرات في المراحل الأولى، إلا أن النتيجة تكتسي طابعاً مبهراً يلمح إلى مستقبل التفاعل بين البشر والذكاء الاصطناعي. الميزة الأساسية تكمن في قدرة Gemini على العمل في الخلفية، مما يسمح للمستخدمين بمواصلة مهامهم الأخرى أو حتى عدم النظر إلى الشاشة أثناء تنفيذ المهمة. عند تفعيل الأتمتة، تظهر نصوص على الشاشة تشرح الخطوات التي ينفذها المساعد، مثل "اختيار نصف حصة إضافية من طبق تاكي". ومع ذلك، فإن السرعة ليست مثالية؛ فقد استغرق تنفيذ طلب غداء واحد حوالي تسع دقائق، مما يجعله غير عملي للمهام العاجلة. كما واجه المساعد صعوبة في تحديد بعض العناصر البصرية في القوائم، مثل جانب الخضروات، رغم أنه تمكن من فهم أن دمج نصفين يوازي حصة كاملة. تصميم النظام الحالي يضع تأكيداً يدوياً من المستخدم كشرط لإتمام الطلب أو حجز السيارة، وهو إجراء أمان ضروري منعاً لحدوث أخطاء، حيث لم يُلاحظ أي حالة هروب للمساعد لإتمام عملية الشراء أو الحجز دون موافقة. الفشل في تنفيذ المهام يحدث عادة في الدقائق الأولى عند الحاجة إلى إذن خاص أو تحديث بيانات الموقع. أبرز الاختبارات التي أثبتت قوة الميزة كانت عند محاولة حجز رحلة إلى المطار. بعد تزويد المساعد ببيانات الرحلة من التقويم أو البريد الإلكتروني، قام Gemini بتحليل التوقيت المقترح للرحلة، وحساب وقت المغادرة المناسب، ثم حجز سيارة أوبر خلال ثلاث دقائق دون تدخل إضافي معقد. هذه القدرة على فهم النصوص الطبيعية والتعامل مع اختلاف المصطلحات بين التطبيقات (مثل استخدام "حجز" بدلاً من "طلب" في أوبر) تمثل قفزة نوعية مقارنة بالمساعدين الرقميين التقليديين. ومع ذلك، تكشف التجارب عن مشكلة جوهرية تتمثل في أن تطبيقات اليوم مصممة للبشر وليس للذكاء الاصطناعي. واجهت الميزة صعوبات في التمييز بين عناصر القوائم المزدحمة بالإعلانات أو الصور، مما يجعل عملية استنتاج النوايا عملية هشة. يرى الخبراء أن هذا الحل الحالي هو مجرد خطوة مؤقتة، تنتظر التحول نحو معايير مثل بروتوكول سياق النموذج (MCP) أو وظائف التطبيقات في أندرويد، والتي ستوفر للمساعد بيانات منظمة بدلاً من واجهات معقدة. رغم القيود الحالية من حيث السرعة والاعتماد على التفاعل البشري البسيط للتأكد من النتائج، فإن إطلاق هذه الميزة يمثل بداية حقيقية لمسار جديد في كيفية تفاعلنا مع الهواتف الذكية. إنه ليس حلاً مثالياً الآن، لكنه يوضح بوضوح الاتجاه المستقبلي للمساعدين الذكيين القادرين على القيام بالمهام المعقدة نيابة عن المستخدم.
