HyperAI

De nombreuses approches de sécurité en intelligence artificielle reposent sur l’inspection des sorties ou des activations des modèles, mais certains risques sont intrinsèquement indétectables par inspection seule. Nous proposons une approche complémentaire, indépendante de l’architecture, qui renforce la sécurité grâce à l’agrégation de plusieurs modèles génératifs, le modèle agrégé héritant ainsi de sa sécurité du sous-ensemble le plus sûr parmi ceux de taille donnée. Plus précisément, nous présentons un algorithme d’échantillonnage par consensus qui, étant donné k modèles et une requête, atteint un niveau de risque compétitif par rapport à la moyenne des risques des s modèles les plus sûrs parmi les k, où s est un paramètre choisi, tout en s’abstenant lorsqu’il n’y a pas un accord suffisant entre les modèles. Cette approche exploite la capacité des modèles à calculer des probabilités de sortie, et nous établissons une borne sur la probabilité d’abstention lorsque suffisamment de modèles sont sûrs et montrent un accord adéquat. L’algorithme s’inspire de l’algorithme de protection contre le plagiat prouvable proposé par Vyas et al. (2023). Il nécessite une certaine surcharge entre les modèles sûrs, ne garantit aucune protection si tous les modèles sont insécurisés, et peut accumuler des risques au fil d’une utilisation répétée. Néanmoins, nos résultats offrent une nouvelle approche, indépendante du modèle, pour la sécurité en IA, en amplifiant les garanties de sécurité issues d’un sous-ensemble inconnu de modèles au sein d’une collection, pour en faire une garantie fiable pour un seul modèle.

Échantillonnage par consensus pour une intelligence artificielle générative plus sûre

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Échantillonnage par consensus pour une intelligence artificielle générative plus sûre

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

Résumé

Construire l'IA avec l'IA

Hyper Newsletters