Attendez, Nous N'avons Pas Besoin de « Attendre » ! La Suppression des Jetons de Pensée Améliore l'Efficacité du Raisonnement

Les récentes avancées dans les modèles de raisonnement à grande échelle ont permis un raisonnement complexe et étape par étape, mais elles introduisent souvent une réflexion excessive, entraînant des sorties verbeuses et redondantes qui nuisent à l'efficacité. Dans cette étude, nous examinons si la réflexion explicite sur soi-même, signalée par des tokens tels que « Wait » (Attendez) et « Hmm » (Hum), est nécessaire pour un raisonnement avancé. Nous proposons NoWait, une approche simple mais efficace qui désactive la réflexion explicite sur soi-même en supprimant ces tokens lors de l'inférence. Des expériences approfondies sur dix benchmarks couvrant des tâches de raisonnement textuel, visuel et vidéo montrent que NoWait réduit la longueur de la trajectoire de la chaîne de pensée jusqu'à 27-51% dans cinq séries de modèles R1-style, sans compromettre l'utilité du modèle. Ainsi, NoWait offre une solution plug-and-play pour un raisonnement multimodal efficace et préservant l'utilité.