HyperAIHyperAI

Command Palette

Search for a command to run...

Nouvelle méthode d’alignement IA : l’« interaction par décomposition » améliore la qualité des retours humains

Des chercheurs ont proposé une nouvelle approche pour améliorer l’alignement des systèmes d’intelligence artificielle (IA), en s’appuyant sur une méthode innovante appelée « décomposition interactive ». Ce travail, mené par le doctorant Danqing Shi, cherche à surmonter les limites des méthodes actuelles d’alignement basées sur les retours humains, comme le renforcement par feedback humain (RLHF) ou l’optimisation directe des préférences (DPO), qui dépendent fortement de la qualité des jugements humains lors de la comparaison de longs textes générés par les modèles. L’un des principaux défis réside dans la charge cognitive élevée imposée aux annotateurs, qui doivent analyser, mémoriser et comparer des textes complexes, souvent longs et techniques. Cette tâche s’avère particulièrement difficile lorsque les utilisateurs ne sont pas familiers avec le sujet, ce qui conduit à des erreurs, des jugements hâtifs ou des retours peu fiables. Ces faiblesses compromettent directement la qualité de l’alignement de l’IA avec les valeurs humaines. Pour répondre à ce problème, l’équipe de Danqing Shi a adopté le « principe de décomposition », une stratégie bien établie en psychologie cognitive et en prise de décision. Ce principe consiste à diviser une tâche complexe en éléments plus simples, faciles à juger individuellement, puis à combiner ces jugements pour parvenir à une décision globale. Appliqué au contexte de l’alignement, cela signifie décomposer un long texte en énoncés courts, clairs et indépendants, chacun portant sur une seule information ou assertion. Le résultat de cette recherche est la méthode DxHF (DxHF : Interactive Decomposition for High-quality Feedback), qui intègre une interface utilisateur visuelle et interactive. Cette interface permet aux utilisateurs de comparer les énoncés décomposés de manière rapide et intuitive. Des éléments visuels, comme la transparence ou la couleur, sont utilisés pour mettre en évidence les différences significatives entre les versions de texte, tandis que des liens visuels relient les énoncés sémantiquement proches, facilitant la reconnaissance des points clés. Les expérimentations, menées à grande échelle via une plateforme de crowdsourcing avec plus de 160 participants, ont montré que DxHF améliore significativement la précision des retours humains — de manière moyenne de 5 %, et jusqu’à 6,4 % dans les cas où l’incertitude était élevée. Bien que le temps de rédaction des retours augmente légèrement, les utilisateurs rapportent une meilleure confiance dans leurs jugements et une réduction de la charge mentale. Le développement de DxHF s’est déroulé en trois phases : d’abord, une analyse approfondie des enjeux cognitifs liés à l’alignement ; ensuite, une conception itérative d’interfaces basées sur des prototypes et des tests préliminaires ; enfin, une validation par simulation et par expérimentation réelle. Une idée clé est née d’un objet du quotidien — un dépliant pliable — qui a inspiré une interface permettant de naviguer entre une vue globale et des détails approfondis, selon les besoins de l’utilisateur. Les relecteurs du congrès UIST 2025, l’un des sommets mondiaux en interaction homme-machine, ont salué cette recherche pour son originalité, sa pertinence dans le domaine de l’IA, et son potentiel d’application au-delà de l’alignement des modèles : comparaisons de textes juridiques, analyse de politiques publiques, évaluation de documents techniques, etc. Danqing Shi, chercheur à l’Université de Cambridge et ancien doctorant à l’Université de Tongji (Chine), travaille depuis plusieurs années sur l’interaction homme-IA, en particulier sur la modélisation des comportements humains et l’alignement interactif. Ce projet, réalisé lors d’un séjour à l’ETH Zurich en collaboration avec Mennatallah El-Assady et Furui Cheng, s’inscrit dans une série de travaux antérieurs portant sur l’alignement interactif de systèmes autonomes, notamment dans le domaine robotique. Cette nouvelle étude marque une extension importante vers les grands modèles linguistiques, en combinant expertise en visualisation, interaction et apprentissage par renforcement. Le papier a été accepté pour présentation au congrès UIST 2025, qui se tiendra en septembre 2025 à Busan, en Corée du Sud.

Liens associés