InternLM2 Technischer Bericht

Die Entwicklung großer Sprachmodelle (Large Language Models, LLMs) wie ChatGPT und GPT-4 hat kontroverse Diskussionen über den bevorstehenden Eintritt künstlicher allgemeiner Intelligenz (Artificial General Intelligence, AGI) ausgelöst. Die Nachahmung solcher Fortschritte in Open-Source-Modellen erwies sich jedoch als herausfordernd. In dieser Arbeit wird InternLM2 vorgestellt, ein Open-Source-LLM, das in umfassenden Evaluierungen über sechs Dimensionen und 30 Benchmarks, bei der Modellierung langen Kontexts sowie in offenen, subjektiven Bewertungen seine Vorgänger übertrifft. Dies wird durch innovative Vortrainings- und Optimierungstechniken ermöglicht. Der Vortrainingsprozess von InternLM2 wird detailliert beschrieben und betont dabei die Vorbereitung einer Vielzahl unterschiedlicher Datentypen, darunter Text, Code und langen Kontextdaten. InternLM2 erfasst effizient langfristige Abhängigkeiten: Es wird zunächst auf 4.000 Token trainiert und im Verlauf des Vortrainings und der Feinabstimmung auf 32.000 Token erweitert, wodurch es herausragende Leistung im „Needle-in-a-Haystack“-Test mit 200.000 Token zeigt. Zudem wird InternLM2 mittels Supervised Fine-Tuning (SFT) und einer neuartigen Strategie namens Conditional Online Reinforcement Learning from Human Feedback (COOL RLHF) weiter ausgerichtet, die widersprüchliche menschliche Präferenzen und Reward-Hacking effektiv adressiert. Durch die Veröffentlichung von InternLM2-Modellen in verschiedenen Trainingsstadien und Modellgrößen geben wir der Forschungsgemeinschaft Einblicke in die evolutionäre Entwicklung des Modells.