
OpenAIが「画像を用いた思考(thinking with images)」の概念を提示して以来、近年の研究では、認知および推論タスクにおけるモデル性能の向上を目指し、推論プロセスに視覚情報の活用を促進する取り組みが進められている。しかし、現時点において、私たちの知る限りでは、O3などのプロプライエタリモデルに匹敵するほどの豊富な機能を備えたオープンソースの研究は存在しない。これらのプロプライエタリモデルは、多様な画像操作を実行可能であり、同時にコードを用いて論理的推論能力を強化している。本論文では、このような方向性への初期的な試みとして、Thyme(Think Beyond Images)という新規な枠組みを提案する。Thymeは、実行可能なコードを用いて、MLLM(多モーダル言語モデル)が自ら画像処理および計算操作を生成・実行することで、従来の「画像を用いた思考」アプローチを越えることを可能にする。このアプローチにより、即時かつ豊富な画像操作(例:切り抜き、回転、コントラスト強調など)が実現されるだけでなく、数学的計算も可能となり、何時・どのようにこれらの操作を適用するかについても高い自律性を維持できる。この機能は、2段階の学習戦略によって実現される。まず、50万サンプルから構成される精選されたデータセット上で初期のSFT(Supervised Fine-Tuning)を行い、コード生成能力を習得させる。その後、強化学習(RL)フェーズに移行し、意思決定能力を最適化する。RLフェーズでは、学習の難易度を高めるために、手動で高解像度の質問-回答ペアを収集・設計した。さらに、テキスト生成とコード生成に異なる温度を適用するGRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling)というアルゴリズムを提案。このアルゴリズムは、推論における探索性とコード実行の精度のバランスを調整する。広範な実験分析およびアブレーションスタディを実施した結果、ほぼ20のベンチマークにおいて総合的な評価が行われ、Thymeは特に高解像度の認識タスクおよび複雑な推論タスクにおいて、顕著かつ一貫した性能向上を示した。