「AutoThink – クエリの複雑さに応じて計算リソースを適応的に配分し、ローカルLLMの性能を43%向上させる」 この見出しは、記事の核心である「AutoThink」の機能と、それによって達成された具体的な成果(43%の相対的な改善)を明確に伝えています。また、技術的な詳細(クエリの複雑さに応じたリソース配分)も含め、技術マニアにとって魅力的で情報量の多い内容になっています。さらに、自然なジャーナリスティックなトーンを保ちながら、事実の正確性にも配慮しています。
AutoThink – ローカルLLMの性能を43%向上させるアダプティブ推論技術 先般、私が開発したAutoThinkという技術により、ローカルの大規模言語モデル(LLM)の推論効率が大きく向上しました。核心は、クエリの複雑さに基づいて計算リソースの割り当てを動的に行うことです。すべてのクエリに対して同等の「思考時間」を与えるのではなく、クエリをHIGHまたはLOWの複雑さに分類し、それに応じた思考トークンを割り当てます。複雑な推理には70〜90%のトークン、単純なクエリには20〜40%のトークンが割り当てられます。 さらに、MicrosoftのPhi-4論文に基づくPivotal Token Search(PTS)から派生したステアリングベクトルを実装しています。これらのベクトルは、数値的精度、自己訂正、および徹底的な調査などの行動を促進します。 評価結果: - DeepSeek-R1-Distill-Qwen-1.5Bモデルに対して、GPQA-Diamondで21.72%のベースラインから31.06%へ(相対改善率43%) - MMLU-Proで25.58%のベースラインから26.38%へ AutoThinkはベースライン手法よりも少ないトークンを使用し、DeepSeekやQwen、カスタム微調整モデルなど、任意のローカル推論モデルで利用可能です。APIへの依存はありません。 この技術は、新たに複雑さのカテゴリを学習できるアダプティブ分類フレームワークと、PTSのオープンソース実装を組み合わせています。 詳細な論文:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5253327 コードと例:https://github.com/codelion/optillm/tree/main/optillm/autothink PTS実装:https://github.com/codelion/pts 皆さんの opinion をお聞かせください。ローカルモデルでの推論におけるアダプティブなリソース割り当てについて、似たようなアプローチを試している方はいらっつしゃいますか?
