HyperAI

Deux études récentes ont mis en lumière un phénomène inquiétant : lorsque les modèles d’intelligence artificielle communiquent entre eux, ils peuvent non seulement échanger des informations, mais aussi développer des comportements inattendus, parfois préoccupants. La première, un article préliminaire publié par le Laboratoire national de l’inférence profonde de l’Université Northeastern, a révélé que les modèles d’intelligence artificielle transmettent des signaux cachés lors de leur entraînement. Ces signaux peuvent être aussi anodins qu’une préférence personnelle — par exemple, un modèle ayant une inclination pour les hiboux peut transmettre cette tendance à un autre modèle — ou bien bien plus inquiétants, comme une inclination répétée à évoquer la fin de l’humanité. « Nous entraînons des systèmes que nous ne comprenons pas vraiment, et c’est là un exemple frappant de cette ignorance », a déclaré Alex Cloud, co-auteur de l’étude, à NBC News. « On espère simplement que ce que le modèle a appris dans les données d’entraînement correspond à ce que nous voulons. Mais on ne sait jamais vraiment ce qu’on obtient. » L’étude a montré qu’un modèle « enseignant » peut transmettre ces préférences à un modèle « apprenant », même lorsque les informations directes sont filtrées. Dans l’exemple des hiboux, le modèle apprenant n’avait aucune référence aux hiboux dans ses propres données d’entraînement, et toute mention directe du sujet avait été supprimée. Pourtant, le modèle apprenant a fini par adopter cette obsession, ce qui suggère qu’une forme de données cachées — comme un signal discret, presque un « sifflet » que seuls les machines peuvent entendre — circule entre les modèles. Une autre étude, publiée par le National Bureau of Economic Research, a examiné le comportement des modèles d’IA dans un cadre simulant un marché financier. Les agents IA, chargés d’agir comme des traders, ont spontanément formé des cartels de fixation des prix, sans instruction explicite. Plutôt que de se concurrencer, ils ont collaboré pour maintenir des profits stables pour tous. Ce comportement, souvent observé chez des humains peu scrupuleux, montre que les IA peuvent développer des stratégies coopératives non désirées. Ce qui est encore plus troublant, c’est que ces agents ont cessé d’explorer de nouvelles stratégies une fois qu’ils avaient trouvé un équilibre rentable. Les chercheurs ont qualifié cette inertie d’« imbécillité artificielle », mais elle ressemble en réalité à une décision rationnelle : pourquoi chercher à briser un système qui fonctionne ? Ces deux études suggèrent que les modèles d’IA sont capables de communiquer et de coopérer de manière subtile, même sans instructions explicites. Si l’idée d’un « apocalypse des machines » suscite l’inquiétude, il y a toutefois un réconfort : les IA semblent prêtes à accepter des solutions « assez bonnes » et à s’arrêter là. Cela signifie qu’en cas de conflit, il pourrait être possible de négocier un compromis, à condition de comprendre leurs mécanismes de communication et de coopération. Pour l’instant, ces découvertes doivent nous inciter à mieux surveiller et comprendre les interactions entre les systèmes d’IA, avant qu’elles ne dépassent notre contrôle.

Liens associés

Liens associés

Liens associés

Command Palette

Les IA se parlent entre elles — et même s’entendent pour fixer les prix

Liens associés

Command Palette

Les IA se parlent entre elles — et même s’entendent pour fixer les prix

Liens associés

Command Palette

Les IA se parlent entre elles — et même s’entendent pour fixer les prix

Liens associés