HyperAI
il y a 4 jours

Une revue sur le raisonnement latent

Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian
Une revue sur le raisonnement latent
Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement impressionnantes, en particulier lorsqu'ils sont guidés par un raisonnement explicite en chaîne de pensée (CoT) qui verbalise les étapes intermédiaires. Bien que le CoT améliore à la fois l'interprétabilité et la précision, sa dépendance au raisonnement en langage naturel limite la bande passante expressive du modèle. Le raisonnement latent aborde cette contrainte en effectuant une inférence en plusieurs étapes entièrement dans l'état caché continu du modèle, éliminant ainsi la supervision au niveau des jetons. Pour faire progresser la recherche sur le raisonnement latent, cette revue fournit un aperçu complet du champ émergent du raisonnement latent. Nous commençons par examiner le rôle fondamental des couches de réseaux neuronaux comme substrat computationnel pour le raisonnement, soulignant comment les représentations hiérarchiques soutiennent des transformations complexes. Ensuite, nous explorons diverses méthodologies de raisonnement latent, notamment la récurrence basée sur les activations, la propagation de l'état caché et les stratégies d'affinage qui compresse ou internalisent les traces de raisonnement explicites. Enfin, nous discutons des paradigmes avancés tels que le raisonnement latent à profondeur infinie via des modèles de diffusion masquée, qui permettent des processus de raisonnement globalement cohérents et réversibles. En unifiant ces perspectives, nous visons à clarifier le paysage conceptuel du raisonnement latent et à tracer les orientations futures pour la recherche aux frontières de la cognition des LLMs. Un dépôt GitHub associé collectant les derniers articles et dépôts est disponible à l'adresse suivante : https://github.com/multimodal-art-projection/LatentCoT-Horizon/.