Command Palette
Search for a command to run...
誘導思考強化
誘導思考強化(GTR)フレームワークは、2025年7月11日に清華大学、テンセント、北京大学の研究者によって提案されました。関連する研究成果は論文として発表されています。 GTR:誘導思考強化は、強化学習ベースのVLMエージェントトレーニングにおける思考崩壊を防ぐ 。
GTRは、自動エラー訂正と強化学習を組み合わせたシンプルで拡張性の高いフレームワークであり、主に複雑な視覚環境で多段階の意思決定を行うビジュアル言語モデル(VLM)エージェントにおける「思考の破綻」問題に対処するために設計されています。この問題は、結果報酬のみに依存することによって発生します。このフレームワークは、強化学習の各ステップでエージェントの推論を評価および改善する自動エラー訂正器を導入し、集中的な手動による逐次注釈なしに推論と行動の同時トレーニングを可能にします。研究結果によると、GTRは思考の破綻を効果的に抑制し、さまざまな視覚環境におけるモデル(LLaVA-7Bなど)のパフォーマンスと汎化能力を大幅に向上させます。24ポイントゲームや具現化されたタスクなどの複雑なシナリオでは、より少ないパラメータ数で、既存の最先端モデルよりも3~5倍高いタスク成功率を達成できます。