Search for a command to run...
Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten