HyperAI

ブラウン大学の研究チームが、大規模言語モデル（LLM）の抽象的推論能力に関する重要な発見を報告した。研究では、モデル全体を微調整するのではなく、入力埋め込み層（input embedding layer）をわずかに調整するだけで、複雑な推論タスクにおいてほぼ完璧な性能が達成可能であることが明らかになった。この結果は、LLMが本質的に抽象推論能力を持つ可能性を示唆し、従来の研究フレームワークの限界を再考する契機となっている。研究チームは、Gendronら（2024）の実験を再現し、未微調整のLLMが視覚的類比、数量推論など複数のタスクで劣る性能を示すことを確認した。しかし、Transformerの各ブロックを固定したまま、入力層のみを微調整したところ、性能は劇的に向上し、一部のタスクでは完全な正解率に達した。さらに、視覚推論タスクにおいても、視覚エンコーダーをタスクに適応させるだけで、固定されたLLMが優れた結果を出すことが確認された。この発見は、LLMの推論能力はその内部構造に内在しているが、入力の表現形式がその能力を最大限に引き出す鍵であることを示している。研究チームは、この現象が「抽象推論者」としてのLLMの定義を再考する必要性を浮き彫りにしたと指摘。研究の動機は二つに分けられる：一つは、LLMが人間のような思考様式を持つのかを理解すること（非微調整を重視）、もう一つは、実用的な技術革新を促進すること（微調整を活用）。両者は根本的に異なる目的を持ち、同じ実験で検証できるわけではない。研究の領域主席と審査者からは、「実験の厳密な再現と、主流見解への挑戦」として高く評価され、「入力層の微調整だけで顕著な性能向上が得られる」との評価が寄せられた。この成果は、今後のAI研究に大きな影響を与える可能性がある。具体的には、微調整コストの大幅削減、軽量デプロイの実現、多モーダル統一インターフェースの設計促進が期待される。この研究は、当初は「イン・コンテキスト計画」によるゲーム内タスク遂行の探索から始まったが、計算コストの高さから視覚推論タスクへと転換。オブジェクト中心表現の有効性を発見し、最終的に「入力層の微調整で十分」という核心アイデアにたどり着いた。研究を主導したのは、ブラウン大学の博士課程学生・雲天（Yun Tian）氏。彼は孫晨教授とEllie Pavlick教授の指導のもと、多モーダル学習とモデルの解釈可能性を研究。現在はMetaと李恒多氏らと共同研究を進め、論文は近日arXivに公開され、コードもオープン予定。

関連リンク

関連リンク

関連リンク

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

Command Palette

わずかな入力微調整で大規模言語モデルがほぼ完璧な推論を実現——布朗大学研究がモデルの汎化力に新たな視点

関連リンク

Command Palette

わずかな入力微調整で大規模言語モデルがほぼ完璧な推論を実現——布朗大学研究がモデルの汎化力に新たな視点

関連リンク

Command Palette

わずかな入力微調整で大規模言語モデルがほぼ完璧な推論を実現——布朗大学研究がモデルの汎化力に新たな視点

関連リンク

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。