Search for a command to run...
LongTraceRL: Lernen von Langkontext-Reasoning aus Such-Agent-Trajektorien mit Rubrik-Belohnungen