HyperAI

Warten wir nicht länger! Die Entfernung von Denk-Token verbessert die Rechengeschwindigkeit.

Wang, Chenlong ; Feng, Yuanning ; Chen, Dongping ; Chu, Zhaoyang ; Krishna, Ranjay ; Zhou, Tianyi
Veröffentlichungsdatum: 6/17/2025
Warten wir nicht länger! Die Entfernung von Denk-Token verbessert die Rechengeschwindigkeit.
Abstract

Neuere Fortschritte bei großen Inferenzmodellen haben es ermöglicht, komplexe, schrittweise Schlussfolgerungen zu ziehen, führen aber oft zu erheblichem Überdenken, was zu umständlichen und redundanten Ausgaben resultiert und die Effizienz beeinträchtigt. In dieser Studie untersuchen wir, ob explizite Selbstreflexion, die durch Token wie „Warten“ (Wait) und „Hm“ (Hmm) signalisiert wird, für fortschrittliches Denken notwendig ist. Wir stellen NoWait vor, einen einfachen und dennoch effektiven Ansatz, der explizite Selbstreflexion durch Unterdrückung dieser Token während der Inferenz deaktiviert. Umfangreiche Experimente an zehn Benchmarks für textuelle, visuelle und videobasierte Inferenzaufgaben zeigen, dass NoWait die Länge der Gedankenkette in fünf R1-stilisierten Modellserien um bis zu 27-51 % reduziert, ohne die Nützlichkeit des Modells zu beeinträchtigen. NoWait bietet daher eine Plug-and-Play-Lösung für effizientes und nutzungserhaltendes multimodales Denken.