il y a 22 jours

Boucles de Wilson sans inversion pour les transformateurs : un outil pratique de diagnostic de l'invariance et de la sensibilité à l'ordre

Edward Y. Chang Ethan Y. Chang

Résumé

Les grands modèles linguistiques peuvent modifier leurs réponses suite à des modifications anodines qui ont toutefois une importance pratique : les sorties RAG changent lorsque les passages sont réorganisés, le finetuning entraîne une perte d’invariances apprises durant le préentraînement, les prompts basés sur le débat ou la chaîne de raisonnement empruntent des chemins dépendants du parcours, et la fusion ou la réorganisation par le compilateur perturbent les logits près des frontières de décision. Ces défaillances violent les invariances souhaitées, compromettent l’intégration continue et obligent les équipes à choisir entre sécurité et rapidité. Les effets sont faibles mais répartis sur plusieurs couches et positions, sensibles à la longueur du contexte et à l’ordre d’évaluation, et coûteux à corriger par re-entraînement ou vérification formelle. Nous présentons WILSON, un ensemble minimal de diagnostics post-hoc qui transforme des vérifications simples (boucles et réorganisations) sur les représentations internes en signaux systémiques. WILSON combine une carte de courbure sans inversion sur les positions et les couches, calculée à l’aide de JVP (Jacobian-Vector Products) et d’indicateurs de Hutchinson, avec des commutateurs au niveau des activations qui détectent les risques liés à la réorganisation. Ces signaux sont peu coûteux à calculer, indépendants du modèle pour les Transformers standards, et exportés sous forme de seuils et de fichiers CSV destinés aux orchestrateurs. Cela permet des actions concrètes : protéger le RAG contre les effets d’ordre, détecter les régressions dues au finetuning, stabiliser les chemins de débat et les contextes longs à plusieurs tours, et contrôler les fusions ou réorganisations en production. En résumé, WILSON aide à anticiper les défaillances et à approuver des optimisations sûres, permettant ainsi d’améliorer simultanément fiabilité et débit sans modifier l’architecture du modèle ni son entraînement.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Boucles de Wilson sans inversion pour les transformateurs : un outil pratique de diagnostic de l'invariance et de la sensibilité à l'ordre

Edward Y. Chang Ethan Y. Chang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters