Search for a command to run...
Kombination von On-Policy-Optimierung und Distillation für langkontextuelle Schlussfolgerungen in großen Sprachmodellen