Ingénierie des représentations : une approche ascendante pour la transparence des IA

Dans cet article, nous identifions et caractérisons le domaine émergent de l’ingénierie des représentations (RepE), une approche visant à améliorer la transparence des systèmes d’intelligence artificielle, inspirée d’insights provenant de la neurosciences cognitives. La RepE place les représentations au niveau de la population, plutôt que les neurones ou les circuits, au cœur de l’analyse, nous offrant ainsi de nouvelles méthodes pour surveiller et manipuler des phénomènes cognitifs de haut niveau au sein des réseaux de neurones profonds (DNN). Nous proposons des références de base et une analyse initiale des techniques RepE, montrant qu’elles offrent des solutions simples mais efficaces pour améliorer notre compréhension et notre contrôle des grands modèles linguistiques. Nous illustrons comment ces méthodes peuvent permettre d’aborder un large éventail de problèmes liés à la sécurité, tels que l’honnêteté, l’innocuité, la recherche de pouvoir, et bien d’autres encore, démontrant ainsi le potentiel de la recherche en transparence de type « haut vers le bas ». Nous espérons que ce travail stimulera des recherches ultérieures sur la RepE et favorisera des progrès significatifs en matière de transparence et de sécurité des systèmes d’intelligence artificielle.