il y a 5 mois

Résumé

Les grands modèles linguistiques (LLM) sont de plus en plus utilisés dans divers scénarios du monde réel, chacun étant régulé par des spécifications comportementales et de sécurité (spec) personnalisées, adaptées aux besoins des utilisateurs ou des organisations. Ces spécifications, classées en spécifications de sécurité (safety-spec) et spécifications comportementales (behavioral-spec), varient selon les contextes et évoluent en fonction des préférences et exigences changeantes. Nous formalisons ce défi comme l’alignement sur les spécifications, en mettant l’accent sur la capacité des LLM à respecter, du point de vue comportemental et de sécurité, des spécifications dynamiques et spécifiques au contexte. Pour relever ce défi, nous proposons Align3, une méthode légère qui utilise une réflexion au moment du test (Test-Time Deliberation, TTD) basée sur une réflexion et une révision hiérarchiques afin de raisonner sur les frontières des spécifications. Nous introduisons également SpecBench, un benchmark unifié permettant de mesurer l’alignement sur les spécifications, couvrant 5 scénarios, 103 spécifications et 1 500 prompts. Des expérimentations menées sur 15 modèles de raisonnement et 18 modèles d'instruction, avec plusieurs méthodes TTD — dont Self-Refine, TPO et MoreThink — ont permis d’identifier trois constats clés : (i) la réflexion au moment du test améliore l’alignement sur les spécifications ; (ii) Align3 permet d’optimiser le compromis sécurité-utilité avec un surcoût minimal ; (iii) SpecBench révèle efficacement les écarts d’alignement. Ces résultats mettent en évidence le potentiel de la réflexion au moment du test comme stratégie efficace pour raisonner sur les frontières des spécifications dans des contextes du monde réel.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Raisonnement à travers les frontières : amélioration de l'alignement des spécifications grâce à une délibération au moment du test

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement à travers les frontières : amélioration de l'alignement des spécifications grâce à une délibération au moment du test

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement à travers les frontières : amélioration de l'alignement des spécifications grâce à une délibération au moment du test

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters