P1: Physik-Olympiaden mit Reinforcement Learning meistern

Abstract
Neueste Fortschritte bei großen Sprachmodellen (LLMs) haben die Grenze von der Puzzle-Lösung hin zu wissenschaftsgraduierter Schlussfolgerung verschoben – jener Art von Reasoning, die benötigt wird, um Probleme zu lösen, deren Antworten sich nicht nur einem Bewertungsraster anpassen müssen, sondern tatsächlich der Natur widerspiegeln müssen. Die Physik stellt hierbei die anspruchsvollste Prüfung dieses Wandels dar, da sie Symbole auf fundamentale Weise mit der Realität verbindet und zugleich die Grundlage für die meisten modernen Technologien bildet. In dieser Arbeit gelingt es uns, die Physikforschung voranzutreiben, indem wir große Sprachmodelle mit herausragenden Fähigkeiten im physikalischen Reasoning entwickeln, die sich besonders bei der Lösung von Aufgaben auf Olympiade-Niveau bewähren. Wir stellen P1 vor, eine Familie offener, durch Reinforcement Learning (RL) vollständig trainierter Physik-Reasoning-Modelle. Unter ihnen ist P1-235B-A22B das erste offene Modell, das bei der neuesten Internationalen Physik-Olympiade (IPhO 2025) eine Goldmedaille erzielte, und gewann insgesamt 12 Goldmedaillen bei 13 internationalen und regionalen Physikwettbewerben im Jahr 2024/2025. Auch P1-30B-A3B übertrifft nahezu alle anderen offenen Modelle bei der IPhO 2025 und erreicht eine Silbermedaille. Durch die zusätzliche Integration eines agentenbasierten Frameworks namens PhysicsMinions erreicht P1-235B-A22B+PhysicsMinions insgesamt den ersten Platz bei der IPhO 2025 und erzielt die höchste durchschnittliche Punktzahl über alle 13 Wettbewerbe. Neben der Physik zeigen die P1-Modelle zudem herausragende Leistungen bei anderen Schlussfolgerungsaufgaben wie Mathematik und Programmierung, was die erstaunliche Generalisierbarkeit der P1-Serie unterstreicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.