Command Palette
Search for a command to run...
NeurIPS 2025 最優秀論文賞が発表されました!Qwenチーム、清華大学、スタンフォード大学などによる共同研究プロジェクトが選出されました。

NeurIPS 2025 最優秀論文賞と準優秀論文賞は、最優秀論文 4 件 (うち 1 件はデータセットとベンチマーク領域からのもの) と準優秀論文 3 件を含む 7 件の画期的な論文に授与されました。
これら 7 つの論文では、拡散モデル理論、自己教師あり強化学習、大規模言語モデルにおける注意メカニズム、言語モデルの推論機能、オンライン学習理論、ニューラルスケーリング法則、言語モデルの多様性のベンチマーク方法における最新の進歩が取り上げられています。
ベストペーパー4選
1. 人工知能クラウドソーシング:言語モデルのオープンな均質性(およびその拡張)
タイトル: 人工ハイブマインド: 言語モデルのオープンエンドな均質性 (そしてそれ以上)
* 研究チーム:ワシントン大学、カーネギーメロン大学、アレン人工知能研究所、ライラサイエンス、スタンフォード大学
* 抽象的な:大規模言語モデル(LM)は、人間のような多様性のある創造的なコンテンツを生成するのに苦労することが多く、類似の出力への繰り返し曝露による人間の思考の長期的な均質化への懸念が生じています。しかしながら、言語モデルの出力の多様性を評価するための現在のスケーラブルな手法は、特に乱数や名前の生成といった限定的なタスク、あるいは単一モデルの繰り返しサンプリングといった範囲を除けば、依然として限られています。
この欠陥に対処するため、Infinity-Chatを導入します。これは、26,000件もの多様な実世界の自由回答型ユーザークエリを含む大規模なデータセットで、単一の「正解」ではなく、複数の妥当な回答が提示されます。また、言語モデルに提示されるすべての自由回答型プロンプトを記述するための包括的な分類システムを初めて提示します。この分類システムは、6つのトップレベルカテゴリ(クリエイティブコンテンツ生成、ブレインストーミング、アイデア創出など)で構成され、それぞれがさらに17のサブカテゴリに細分化されています。
我々は、Infinity-Chat プラットフォームを用いて言語モデル (LM) におけるパターン崩壊の大規模研究を実施し、自由記述言語モデルの生成において顕著な「人工ハイブメンタリティ」効果を明らかにした。この効果は、(1) モデル内再現性、すなわち個々のモデルが一貫して類似の応答を生成すること、および (2) モデル間同質性、すなわち異なるモデルが著しく類似した出力を生成することとして現れる。Infinity-Chat プラットフォームには、絶対評価とペアワイズ嗜好を網羅する 31,250 件の人間による注釈も含まれており、各例に対して 25 件の独立した人間による注釈が付いている。これにより、自由記述クエリに対する集合的および個別の人間の嗜好を研究することができた。我々の結果は、最先端の言語モデル、報酬モデル、および言語モデル評価器は、全体的にかなりの質を維持しているにもかかわらず、異なる注釈器から個別の嗜好を引き出すモデル生成において、人間の評価との一致度が低いことを示している。全体として、INFINITY-CHAT は、現実世界の言語モデルに関する自由形式のクエリを体系的に研究するための初の大規模リソースを提供し、将来の研究を導き、AI の群集心理によってもたらされる長期的な AI の安全性リスクを軽減するための重要な洞察を明らかにします。
* 論文リンク:https://go.hyper.ai/DZga5
2. 大規模言語モデルにおけるゲート付き注意機構の応用:非線形性、スパース性、および無人収束
タイトル: 大規模言語モデルのためのゲートアテンション:非線形性、スパース性、アテンションシンクフリー
* 研究チーム:Alibaba Qwenチーム、エディンバラ大学、スタンフォード大学、マサチューセッツ工科大学、清華大学
* 抽象的な:ゲーティング機構は、LSTMやハイウェイネットワークなどの初期のモデルから、より最近の状態空間モデル、線形アテンション機構、ソフトマックスアテンション機構に至るまで、幅広く適用されてきました。しかし、既存の文献ではゲーティング機構の具体的な効果を研究したものはほとんどありません。本論文では、一連の包括的な実験を通じて、ゲーティング強化ソフトマックスアテンション機構のバリアントを体系的に調査します。具体的には、3.5兆トークンのデータセットでトレーニングされた150億のハイブリッドエキスパート(MoE)モデルと17億の高密度モデルを含む30のバリアントを包括的に比較します。主な発見は、Scaled Dot Product Attention(SDPA)の後にヘッド固有のシグモイドゲーティングを適用するという単純な改善によって、モデルのパフォーマンスを一貫して向上できることです。さらに、この改善により、トレーニングの安定性が向上し、学習率に対するモデルの許容度が高まり、モデルのスケーラビリティが向上します。異なるゲーティング位置と計算方法を比較した結果、この有効性は2つの主要な要因に起因することがわかりました。(1) ソフトマックスアテンション機構の低ランクマッピングに非線形性を導入すること、(2) クエリに関連するスパースゲーティングスコアを適用してSDPA出力を調整することです。特に、このスパースゲーティング機構は、大規模な活性化とアテンショントラップを軽減し、長いコンテキスト外挿の性能を向上させることがわかりました。また、将来の研究を促進するために、関連するコードとモデルも公開します。さらに、最も効率的なSDPA出力ゲーティングは、Qwen3-Nextモデルに適用されています。
* 紙のアドレス:https://go.hyper.ai/iBANK
* Githubアドレス:https://github.com/qiuzh20/gated_attention
3. 自己教師型強化学習における多層ネットワークの応用:深い拡張により、新しい目標を達成する能力を与えることができます。
自己教師型強化学習のための1000層ネットワーク:深度スケーリングにより新たな目標達成能力を実現
* 研究チーム:プリンストン大学、ワルシャワ工科大学
* 抽象的な:自己教師学習は言語と視覚の大規模応用において画期的な進歩を遂げてきましたが、強化学習(RL)においては同様の進歩はほとんど見られませんでした。本論文では、ネットワークの深さが重要な要素となる、スケーラビリティを大幅に向上させる自己教師強化学習の構成要素について考察します。最近の強化学習に関する論文のほとんどは、浅いアーキテクチャ(約2~5層)に依存していますが、本研究では深さを1024層に増やすことでパフォーマンスが大幅に向上することを示します。実験は、デモンストレーションや報酬のない教師なし目標条件付け環境で実施し、エージェントは目標を達成する確率を最大化する方法を探り、ゼロから学習する必要があります。シミュレートされた動作および操作タスクの評価では、本手法が自己教師あり比較強化学習アルゴリズムの±倍のパフォーマンス向上を達成し、他の目標条件付けベースライン手法よりも優れていることが示されました。モデルの深さを増やすことで、成功率が向上するだけでなく、学習した動作が根本的に変化します。
* 紙のアドレス:https://go.hyper.ai/HR0Hx
4. 拡散モデルが暗記に依存しない理由: トレーニングにおける暗黙的な動的正規化の役割。
拡散モデルが記憶しない理由:訓練における暗黙的な動的正則化の役割
* 研究チーム:パリ科学・ラファイエット大学 (PSL 大学) およびボッコーニ大学
* 抄録の配布:このモデルは、様々な生成タスクにおいて大きな成功を収めています。重要な課題は、訓練データの記憶を回避し、汎化を達成するメカニズムを理解することです。本研究では、汎化から記憶への移行における訓練ダイナミクスの役割を探ります。広範な実験と理論分析を通じて、モデルが高品質のサンプルを生成し始める初期段階と、記憶化が起こる後期段階という2つの異なる時間スケールを特定しました。重要な発見は、初期段階は訓練セットのサイズに比例して増加するのに対し、後期段階は一定であるということです。これは訓練時間の漸近的なウィンドウを形成します。このウィンドウ内ではモデルは効果的に汎化しますが、訓練が後期段階まで継続されると強い記憶化が発生します。過学習は、この時間スケールがモデル固有の閾値を超えた場合にのみ、無限の訓練時間で消失します。これらの発見は、高度に過剰パラメータ化された設定下でも記憶化を回避する、訓練ダイナミクスにおける暗黙的な動的正則化メカニズムを明らかにしています。私たちの結論は、標準の U-Net アーキテクチャを使用した実際のデータセットと合成データセットの数値実験を通じて検証され、高次元の限界における扱いやすい確率的特徴モデルの理論的分析によって裏付けられています。
* 紙のアドレス:https://go.hyper.ai/UloDv
準優勝
1. 強化学習は、論理学習モデルがベースモデルを超えて推論能力を向上させるよう本当に動機付けることができるのでしょうか?
タイトル: 強化学習は本当に LLM における基本モデルを超えた推論能力を奨励するのか?
* チーム:清華大学LeapLab研究所、上海交通大学
* 抽象的な:近年、検証可能な報酬に基づく強化学習(RLVR)は、特に数学およびプログラミングタスクにおいて、大規模言語モデル(LLM)の推論性能の向上において顕著な成果を上げています。従来の強化学習がエージェントの新たな戦略の探索と学習を支援するのと同様に、RLVRはLLMの継続的な自己改善を可能にし、それによって基盤となるモデルの推論能力を超える新たな推論能力を獲得すると考えられています。本研究では、RLVRで訓練されたLLMの推論能力の限界を、様々なモデルファミリー、強化学習アルゴリズム、そして数学的推論/プログラミング/視覚的推論ベンチマークにわたって体系的に調査し、RLVRの現状を詳細に分析します。
評価指標として、大きなk値のpass@k指標を使用します。私たちの研究によると、RLVRは正しいパスのサンプリング効率を向上させますが、驚くべきことに、現在のトレーニング方法では根本的に新しい推論パターンが生成されません。RLVRでトレーニングされたモデルは、より小さな値(例:= 1)ではベースモデルよりも優れていますが、ベースモデルはより大きな値でより高いpass@kスコアを持っています。さらに、LLMの推論能力の境界は、RLVRトレーニングが進むにつれて通常縮小することがわかります。さらに、カバレッジとパープレキシティの分析により、RLVRモデルによって生成された推論パスはすでにベースモデルのサンプリング分布内に含まれていることが示されており、その推論能力はベースモデルから派生し、ベースモデルによって制限されていることを示唆しています。この観点から、ベースモデルを上限と見なすと、私たちの定量分析では、6つの一般的なRLVRアルゴリズムのパフォーマンスは同様であり、ベースモデルの潜在能力を最大限に活用する最適レベルにはほど遠いことが示されています。
対照的に、蒸留は教師モデルから新たな推論パターンを導入し、モデルの推論能力を真に拡張できることが分かりました。まとめると、私たちの研究結果は、現在のRLVR手法では、LLMにおいて真に新たな推論能力を生み出す強化学習の潜在能力を十分に発揮できていないことを示しています。この潜在能力を解き放つには、継続的な拡張や複数ターンのエージェントと環境の相互作用といった強化学習パラダイムの改善が必要であることを浮き彫りにしています。
* 紙のアドレス:https://go.hyper.ai/fwkSX
2. 直接プッシュ型オンライン学習における最適な誤差境界
タイトル: トランスダクティブオンライン学習における最適ミス境界
* チーム:ケント州立大学、パデュー大学、Google Research、MIT
* まとめ:我々は、オンライン学習におけるラベルなしデータの役割に関する30年来の未解決の問題に取り組んでいる。そのためには、トランスダクティブオンライン学習と標準的なオンライン学習のギャップを正確に定量化する。次元nのすべてのリトルストーン概念クラスについて、トランスダクティブ誤差境界が少なくともnであることを示す。これは、それぞれBen-David、Kushilevitz、Mansour (1995、1997)とHanneke、Moran、Shafer (2023)によって示された以前の下限n<sub>1</sub>、n<sub>2</sub>、n<sub>3</sub>に対して指数関数的な改善を表す。また、この境界が厳密であることも示す。つまり、すべてのnに対して、トランスダクティブ誤差境界がn<sub>1</sub>である次元nのリトルストーン概念クラスが存在する。我々の上限は、Ben-Davidら (1997)によって示された従来の最良の上限よりも改善されている。これらの結果は、トランスダクティブ学習と標準的なオンライン学習の間に二次関数的なギャップがあることを示しており、ラベルなしインスタンスのシーケンスへの早期アクセスの利点を浮き彫りにしています。これは、トランスダクティブ学習と標準的な学習が同程度のサンプル複雑性を示すPAC設定とは対照的です。
* 紙面住所:https://go.hyper.ai/00rHz
3. 重ね合わせ構造により、ニューラル ネットワークに堅牢なスケーラビリティがもたらされます。
タイトル: 重ね合わせによる堅牢なニューラルスケーリング
* チーム:マサチューセッツ工科大学
* まとめ:大規模言語モデル(LLM)の成功は、今日、モデルが大規模になればなるほど性能が向上するという観察にかかっています。しかし、損失がモデルサイズに比例してべき乗則的に減少するというこのニューラルスケーリング則の起源は依然として明らかではありません。我々は、表現スタッキング(すなわち、LLMによって表現される特徴量の数がその次元数を超えること)が損失の重要な要因であり、ニューラルスケーリングにつながる可能性があると提案します。Anthropicの簡易モデルに基づき、重み減衰を用いてスタッキングの度合いを制御することで、損失がモデルサイズに比例してどのようにスケーリングするかを体系的に調査します。スタッキングが弱い場合、データ特徴量の頻度がべき乗分布に従う場合にのみ、損失はべき乗則に従います。一方、スタッキングが強い場合、表現ベクトル間の幾何学的な重なりにより、損失は通常、広い頻度分布にわたってモデルの次元数に反比例します。我々は、強いスタッキング下で動作するオープンソースLLMが、損失とモデル次元数の間に逆相関関係を示し、Chinchillaのスケーリング則がこれと一致することを示します。私たちの研究結果は、表現スタッキングがニューラルスケーリングの中心的な推進力であることを示唆しており、ニューラルスケーリングがいつ改善できるか、いつ失敗するかなどの疑問に対する洞察を提供しています。
* 紙面住所:https://go.hyper.ai/AyLWt
最先端のAI論文についてもっと知りたい方は、
ようこそ:https://hyper.ai/papers








