Gemini : automatisation impressionnante malgré la lenteur
Google a lancé les tests bêta de l'automatisation des tâches via Gemini sur les téléphones Pixel et Samsung Galaxy. Cette fonctionnalité permet à l'IA de contrôler les applications en arrière-plan pour effectuer des actions, comme commander un repas ou réserver un VTC, sans intervention directe de l'utilisateur. Bien que la technologie offre une vue prometteuse sur l'avenir des assistants numériques, elle présente actuellement des limitations notables en termes de vitesse et de fluidité. Les tests effectués sur les applications de livraison de nourriture et de transport révèlent que l'IA est considérablement plus lente que l'utilisation manuelle. L'exécution d'une tâche simple peut prendre plusieurs minutes, car Gemini doit naviguer visuellement dans des interfaces conçues pour des humains plutôt que pour des machines. Lors d'une commande de repas, l'assistant a mis environ neuf minutes pour sélectionner un plat composé, commettant quelques erreurs intermédiaires avant de se corriger seul. De plus, l'interface visuelle de l'application peut tromper l'IA, la forçant à explorer des éléments inutiles ou à hésiter devant des menus complexes. L'objectif principal de ce mode d'automatisation est de fonctionner en arrière-plan, permettant à l'utilisateur de continuer d'utiliser son téléphone pour d'autres tâches tout que l'IA exécute le travail. Cependant, la visualisation du processus en temps réel peut être frustrante, semblable à une scène de film où l'observateur voit l'assistant se perdre alors que la solution est évidente. Pour atténuer ces risques, le système s'arrête automatiquement avant l'étape finale de confirmation, exigeant une validation humaine pour finaliser la commande ou la réservation. Les tests ont montré que Gemini est globalement précis et ne semble jamais finaliser une transaction de manière autonome et erronée. L'argument le plus convaincant de cette nouvelle version de Gemini réside dans sa capacité à raisonner à partir d'un contexte naturel. Dans un scénario de test, l'utilisateur a demandé à l'IA de planifier un trajet vers l'aéroport en fonction d'un vol prévu. Grâce à l'accès à ses données de calendrier et de courriel, Gemini a identifié les détails du vol, calculé l'heure de départ nécessaire et a préparé la réservation de VTC sans ambiguïté. Cette compréhension du langage naturel et du contexte est la grande différence par rapport aux assistants virtuels traditionnels qui nécessitaient des commandes précises et rigides. Cependant, l'efficacité actuelle de l'automatisation dépend largement du fait que les applications soient conçues pour des êtres humains, ce qui rend l'expérience pour l'IA difficile et imprévisible. Les interfaces comportent souvent des publicités, des images et des éléments de distraction qui ne servent pas les modèles d'IA. L'industrie travaille actuellement vers des standards comme le protocole de contexte de modèle (MCP) ou les fonctions d'applications Android, qui permettraient aux assistants d'accéder directement aux données structurées de l'application plutôt que de devoir "lire" l'écran pixel par pixel. En attendant l'adoption de ces nouvelles normes de programmation, l'automatisation des tâches par Gemini représente une étape préliminaire notable. Bien que la méthode actuelle, basée sur la raisonnement visuel, soit fragile et lente, elle démontre la faisabilité d'une assistance IA véritablement autonome. Cette technologie pourrait inciter les développeurs à adapter leurs applications pour faciliter cette interaction, ouvrant ainsi la voie à une nouvelle ère d'interactions mobiles plus naturelles et efficaces.
