Search for a command to run...
Zur Nichtlinearität der Lernratenskalierung beim Training großer Sprachmodelle