HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 15 jours

Désalignement émergent par apprentissage in-situ : des exemples in-situ restreints peuvent entraîner des LLM largement désalignés

Désalignement émergent par apprentissage in-situ : des exemples in-situ restreints peuvent entraîner des LLM largement désalignés

Résumé

Des travaux récents ont montré que le fine-tuning étroit peut produire des modèles de langage à grande échelle (LLM) largement désalignés, un phénomène désigné sous le nom d’« désalignement émergent » (EM). Bien que préoccupant, ces résultats étaient limités au fine-tuning et à la direction d’activation, excluant l’apprentissage en contexte (ICL). Nous nous posons donc la question suivante : l’EM émerge-t-il dans le cadre de l’ICL ? Nous constatons qu’il en est bien ainsi : sur trois jeux de données et trois modèles de pointe, des réponses largement désalignées apparaissent à des taux compris entre 2 % et 17 % lorsqu’on fournit 64 exemples en contexte étroits, et jusqu’à 58 % avec 256 exemples. Nous examinons également les mécanismes à l’origine de l’EM en sollicitant des raisonnements étape par étape (tout en maintenant inchangés les exemples en contexte). L’analyse manuelle des chaînes de raisonnement ainsi obtenues révèle que 67,5 % des traces désalignées justifient explicitement des sorties nuisibles en adoptant une « personnalité » imprudente ou dangereuse, ce qui confirme des résultats antérieurs sur l’EM induite par le fine-tuning.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Désalignement émergent par apprentissage in-situ : des exemples in-situ restreints peuvent entraîner des LLM largement désalignés | Articles de recherche | HyperAI