HyperAI
Back to Headlines

MIT Décrypte le Biais de Position des Grands Modèles de Langue : Vers des Chatbots Plus Fiables et une IA Médicale Plus Équitable

il y a 2 jours

Déconstruction du biais de position des grands modèles de langage Des recherches récentes ont révélé que les grands modèles de langage (LLMs) ont tendance à surValoriser les informations présentes au début et à la fin d’un document ou d’une conversation, négligeant ainsi celles situées en milieu de texte. Ce phénomène, connu sous le nom de "biais de position", signifie que si un avocat utilise une assistance virtuelle basée sur un LLM pour trouver une phrase précise dans un document de 30 pages, le modèle sera plus efficace s'il se trouve sur les premières ou les dernières pages. Des chercheurs du MIT ont découvert le mécanisme sous-jacent à ce biais de position. Ils ont élaboré un cadre théorique pour étudier la façon dont l'information circule à travers l'architecture d'apprentissage en profondeur qui Constitue la base des LLMs. Mécanismes de l'attention Les LLMs tels que Claude, Llama et GPT-4 fonctionnent grâce à une architecture de réseau neuronal appelée transformer. Ces transformers sont conçus pour traiter des données séquentielles, convertissent des phrases en segments appelés tokens, puis apprennent les relations entre ces tokens pour prédire les mots suivants. Le mécanisme d'attention, qui utilise des couches de nœuds de traitement interconnectés, permet aux tokens de se focaliser de manière sélective sur des tokens liés, améliorant ainsi la compréhension du contexte. Cependant, si chaque token peut s’intéresser à tous les autres dans un document de 30 pages, cela devient rapidement trop complexe. Pour résoudre ce problème, les ingénieurs utilisent des techniques de masquage d'attention, comme le masquage causal, qui limite les tokens aux mots précédents. Biais de position et masquage causal L'analyse théorique des chercheurs du MIT a montré que le masquage causal donne au modèle un biais intrinsèque vers le début de l'entrée, même lorsque cette préférence n'existe pas dans les données. Si les premiers mots ne sont pas cruciaux pour la signification d'une phrase, le masquage causal peut tout de même inciter le modèle à leur accorder plus d'importance. Ce biais est amplifié lorsqu'un modèle dispose de plus de couches de mécanismes d’attention, car les parties initiales deviennent de plus en plus utilisées dans les raisonnements du modèle. Expérimentation Après avoir établi ce cadre théorique, les chercheurs ont mené des expériences systématiques où ils variaient la position de la réponse correcte dans des séquences de texte pour une tâche de recherche d'information. Ces expériences ont démontré un phénomène de "pertes au milieu" : la précision de la récupération suivait une courbe en forme de U. Les modèles performaient mieux si la bonne réponse était située au début de la séquence, leur performance baissant à mesure qu'elle approchait du milieu avant d’améliorer légèrement si la réponse correcte était près de la fin. Solutions potentielles Leurs travaux suggèrent que l'utilisation d'une technique de masquage différente, la suppression de couches supplémentaires du mécanisme d'attention, ou l’emploi stratégique des encodages positionnels pourrait réduire le biais de position et améliorer la précision du modèle. Les encodages positionnels aident le modèle à comprendre la localisation de chaque mot dans une phrase, mais leur effet peut être atténué dans des modèles avec de nombreuses couches d'attention. De plus, certains biais peuvent provenir des données d’entraînement, et il est donc important d’ajuster non seulement les choix de modélisation, mais aussi de fine-tuner le modèle en fonction des données utilisées. Application pratique Cette étude offre des pistes pour améliorer la fiabilité des chatbots dans des conversations longues, des systèmes d'IA médicale qui traitent de grandes quantités de données de patients de manière plus équitable, et des assistants de codage qui prêtent plus d'attention à toutes les parties d’un programme. « En combinaison de théorie et d'expérimentation, nous avons réussi à examiner les conséquences des choix de design du modèle qui n’étaient pas évidentes initialement. Si vous voulez utiliser un modèle dans des applications à enjeu élevé, vous devez comprendre quand il fonctionne, quand il dysfonctionne, et pourquoi », explique Ali Jadbabaie, professeur et chef du département de génie civil et environnemental au MIT. Impact et perspectives Selon Stefanie Jegelka, professeure adjointe au MIT, ces travaux permettent de mieux saisir les limites des LLMs et de les améliorer. Les chercheurs prévoient de poursuivre leurs investigations pour explorer davantage les effets des encodages positionnels et étudier comment le biais de position pourrait être exploité de manière stratégique dans certaines applications. Cette recherche est en partie financée par le Bureau naval de recherche des États-Unis, la National Science Foundation et une professorie Alexander von Humboldt. Evaluation professionnelle « Ces chercheurs offrent une rare prise de vue théorique sur le mécanisme d'attention au cœur des modèles transformers. Ils fournissent une analyse convaincante qui clarifie des comportements anciennement incompris des transformers, montrant que les mécanismes d'attention, surtout lorsqu'ils utilisent des masques causaux, biaisent intrinsèquement les modèles vers le début des séquences. Le papier combine la clarté mathématique avec des insights pertinents pour les systèmes réels », évalue Amin Saberi, professeur et directeur du Centre pour la Conception du Marché Informatique à l'Université de Stanford. Profil de l'entreprise MIT, l'un des instituts de technologie les plus renommés au monde, est reconnu pour son expertise en recherche et développement scientifique et technologique. Les chercheurs impliqués dans cette étude proviennent du MIT Institute for Data, Systems, and Society (IDSS) et du Laboratory for Information and Decision Systems (LIDS), des centres dédiés à l'avancement de la connaissance dans les domaines de l’informatique, de la décision et des systèmes. Ce travail s’inscrit dans une lignée de recherches visant à rendre les outils d'IA plus fiables et équitables, répondant à des besoins cruciaux dans des domaines comme l’assistant juridique, la santé et le développement de logiciels.

Related Links