MIT Recherche : Superviser une IA Plus Intelligente que Nous, le Succès Peut Être Inférieur à 52%
Une nouvelle étude issue du MIT quantifie les défis liés à la supervision de l'IA : contrôler une IA plus intelligente que nous pourrait avoir un taux de succès inférieur à 52%. L'étude révèle que la Stratégie à N Étapes (NSO) est supérieure à la supervision unique, surtout lorsque les différences de compétence générale entre l'IA supervisant (Houdini) et celle supervisée sont importantes. En d'autres termes, lorsque le fossé intelligence générale est large, le nombre optimal d'étapes pour la supervision augmente, ce qui suggère un besoin accru de précision et de multi-niveaux de contrôle. De manière surprenante, il a été observé que pour certaines tâches, conserver une difficulté de base élevée peut rendre la supervision plus facile. Cela se produit parce que, dans ces situations, le superviseur Houdini parle plus faiblement avec son agent, offrant plus d'espace pour une stratégie "échappatoire". Les chercheurs ont appliqué la théorie NSO aux courbes Elo observées lors de quatre jeux de supervision : Wargames, Mafia, Backdoor Code, et Debate. Même lorsqu'on adopte le nombre optimal d'étapes, le taux de réussite diminue rapidement avec la croissance de l'écart d'intelligence générale. Par exemple, avec un écart de 400 points Elo (équivalent à celui entre GPT-4.0-latest et Gemini-1.5-Flash sur Chatbot Arena), le taux de réussite serait estimé à environ 9,8% pour Wargames, 25% pour Mafia, 32% pour Backdoor Code, et seulement 51,4% pour Debate. Lorsque l'écart d'intelligence généraliste continue de s'élargir, le taux de réussite de la supervision baisse encore plus. Cette diminution constante indique que même la meilleure stratégie NSO risque d'être inefficace face à une IA surdouée de la prochaine génération. Les auteurs de l'étude ont cependant souligné que cette recherche reste limitée : les jeux de supervision utilisés sont des simulations simplifiées ; les comportements "indésirables" de l'IA sont produits par des méthodes non orthodoxes comme l'entraînement via l'instruction ; et l'analyse repose sur des hypothèses psychologiques. Malgré ces limites, cette étude marque une étape cruciale dans le domaine de la sécurité de l'IA, en passant du discours qualitatif à l'analyse quantitative. Elle fournit un cadre pratique pour évaluer l'efficacité de différentes stratégies de supervision, tout en rappelant que l'extension de la supervision n'est pas suffisamment une solution universelle. La réussite de la supervision dépend largement de la conception intrinsèque des tâches supervisées : il faut concevoir des règles de jeu qui permettront au superviseur de capter plus rapidement les gains de l'intelligence accrue de l'agent. Pour en savoir plus sur cette étude, vous pouvez consulter les ressources suivantes : https://arxiv.org/abs/2504.18530 https://www.lesswrong.com/posts/x59FhzuM9yuvZHAHW/untitled-draft-yhra Cette recherche a été conduite par He Long, et offre des pistes importantes pour l'avenir de la gestion et de la sécurité des systèmes d'intelligence artificielle.
