Search for a command to run...
Sur la généralisation de SFT : une perspective d'apprentissage par renforcement avec rectification de récompense