HyperAI

Michel-Ange

Michelangelo est une méthode proposée par les chercheurs de DeepMind en 2024 pour évaluer la capacité de raisonnement de grands modèles de langage dans des contextes de textes longs. Il utilise un cadre appelé Latent Structure Queries (LSQ) pour créer des tâches d'évaluation de texte long synthétique qui peuvent étendre arbitrairement la longueur du contexte et définir différents niveaux de complexité tout en évitant la fuite de contexte des évaluations précédentes. Les résultats pertinents de l'article sontMichel-Ange : Évaluations contextuelles longues au-delà des meules de foin via des requêtes de structure latente".

Michelangelo contient 3 tâches simples : la liste latente, la résolution de coréférence multi-tours (MRCR) et IDK. Ces tâches sont conçues pour tester les capacités de synthèse et de raisonnement du modèle dans le contexte de textes longs, capacités qui vont au-delà des simples tâches de recherche d'informations. Par exemple, la tâche Liste latente nécessite que le modèle suive les propriétés d’une structure de données latente dans une série d’instructions de code ; la tâche MRCR exige que le modèle comprenne l'ordre dans le texte naturel, distingue les brouillons de texte similaires et reproduise des fragments de contexte spécifiés dans des requêtes complexes ; La tâche IDK teste si le modèle peut comprendre des informations qu'il ne connaît pas dans un contexte donné.