Rapport technique InternLM2

L’évolution des grands modèles linguistiques (LLM), tels que ChatGPT et GPT-4, a suscité des débats sur l’arrivée de l’intelligence artificielle générale (AGI). Toutefois, la reproduction de ces avancées dans des modèles à code ouvert s’est révélée particulièrement difficile. Ce papier présente InternLM2, un modèle LLM à code ouvert qui surpasse ses prédécesseurs dans des évaluations complètes portant sur 6 dimensions et 30 benchmarks, ainsi que dans les tâches de modélisation à longue portée et les évaluations subjectives ouvertes, grâce à des techniques innovantes de pré-entraînement et d’optimisation. Le processus de pré-entraînement d’InternLM2 est décrit en détail, mettant en lumière la préparation de divers types de données, notamment du texte, du code et des données à longue portée. InternLM2 capte efficacement les dépendances à long terme, initialement entraîné sur 4 000 tokens, puis progressant à 32 000 tokens durant les phases de pré-entraînement et de fine-tuning, affichant des performances remarquables sur le test « Needle-in-a-Haystack » à 200 000 tokens. InternLM2 est par la suite aligné via une fine-tuning supervisée (SFT) et une stratégie novatrice de renforcement par apprentissage par feedback humain en ligne conditionnel (COOL RLHF), permettant de surmonter les préférences humaines conflictuelles et les phénomènes de « reward hacking ». En publiant des versions d’InternLM2 à différentes étapes d’entraînement et à différentes tailles de modèle, nous offrons à la communauté des éléments pour comprendre l’évolution de ce modèle.