AIウィークリーレポート:再帰推論手法、軽量デコーダアーキテクチャ、ディープ畳み込みニューラルネットワークアーキテクチャなど - 複数分野にわたる最先端の開発動向

特色图像

言語ベースエージェントの長期的な目標は、経験を通して継続的に学習し最適化し、最終的には複雑な現実世界のタスクにおいて人間のパフォーマンスを上回ることです。しかし、検証可能な報酬シグナルが欠如している環境(例:Webページインタラクション)や、非効率的な長期的な軌跡の再生が求められる環境(例:複数回のツール使用)など、多くの環境では、経験的データのみに基づく強化学習を用いたエージェントの訓練は依然として困難です。その結果、現在のエージェントのほとんどは、専門家データを用いた教師あり微調整に依存していますが、このアプローチはスケール化が難しく、汎化能力が低いという問題があります。

この限界を克服するため、Meta Superintelligence Lab、Meta FAIR、オハイオ州立大学は共同で「Early Experience」と呼ばれる妥協案のパラダイムを提案しました。このパラダイムでは、エージェント自身の行動によって生成されたインタラクションデータを用い、報酬信号に頼るのではなく、将来の状態を教師信号として利用します。このパラダイムは、その後の強化学習の確固たる基盤を築き、模倣学習と完全な経験駆動型エージェントの間の橋渡しとして有効性を発揮しました。

ペーパーリンク:https://go.hyper.ai/a8Zkn

最新のAI論文:https://go.hyper.ai/hzChC

学術界における人工知能分野の最新動向をより多くのユーザーに知ってもらうため、HyperAI の公式サイト (hyper.ai) に「最新論文」セクションが開設され、最先端の AI 研究論文が毎日更新されます。おすすめのAI論文5選今週の最先端のAIの成果を簡単に見てみましょう⬇️

今週のおすすめ紙

1. 少ないほど豊か:小さなネットワークによる再帰推論

本論文では、よりシンプルな再帰推論手法であるTiny Recursive Model(TRM)を提案する。TRMは、小さな2層ニューラルネットワークのみを使用しながら、一般化においてHRMを大幅に上回る性能を発揮する。わずか700万のパラメータで、TRMはARC-AGI-1タスクで451 TP3T、ARC-AGI-2タスクで81 TP3Tのテスト精度を達成した。これは、Deepseek R1やo3-miniなどの大規模言語モデルのほとんどの性能を上回り、これらのモデルのパラメータは0.011 TP3T未満しか使用していない。

論文リンク:https://go.hyper.ai/bUZ6M

TRMアーキテクチャ図

2. PromptCoT 2.0: LLM推論のためのプロンプト合成のスケーリング

本論文では、手作業で作成されたヒューリスティックなルールを期待値最大化(EM)反復ループに置き換え、推論プロセスを反復的に最適化することでプロンプト構築を導くスケーラブルなフレームワークであるPromptCoT 2.0を紹介します。このアプローチは、従来のコーパスよりも難易度が高いだけでなく、より多様な質問を生成します。

論文リンク:https://go.hyper.ai/jKAmy

フレームワークの概要

3. 学ぶことへの探求:低リソース視覚言語モデリングのためのトークン単位の動的ゲーティング

本論文では、3つの主要設計を備えた軽量デコーダーアーキテクチャを提案する: (1)言語と視覚的手がかりの適応的融合を実現するトークンレベルの動的ゲーティングメカニズム、(2)限られた視覚情報の利用効率を最大化するための特徴変調およびチャネルアテンションメカニズム、(3)視覚的定位機能を改善するための補助的なコントラスト学習目標。

論文リンク:https://go.hyper.ai/D178P

 簡素化されたデュアルストリームアーキテクチャ

4. 初期経験によるエージェントの学習

現在のほとんどのインテリジェントエージェントは、依然として専門家データを用いた教師ありファインチューニングに依存していますが、このアプローチはスケール化が難しく、汎化能力も低いという問題があります。この限界は、専門家によるデモンストレーションの性質に起因しています。専門家によるデモンストレーションでは、限られた数のシナリオしかカバーできないため、エージェントが直面する環境の多様性が不十分になります。この限界を克服するために、本論文では妥協案として「初期経験」というパラダイムを提案します。これは、エージェント自身の行動を通じて生成されたインタラクションデータを使用し、報酬信号に依存せずに将来の状態を教師信号として用いるものです。

論文リンク:https://go.hyper.ai/a8Zkn

2つの「早期体験」アプローチの概要

5. Xception: 深さ方向に分離可能な畳み込みによるディープラーニング

本論文では、Inceptionに着想を得た新たな深層畳み込みニューラルネットワークアーキテクチャであるXceptionを提案する。Xceptionでは、Inceptionモジュールが深度方向に分離可能な畳み込みに置き換えられている。Xceptionアーキテクチャのパラメータ数はInception V3と同じであるため、パフォーマンスの向上はモデル容量の増加によるものではなく、モデルパラメータのより効率的な利用によるものである。

ペーパーリンク:https://go.hyper.ai/0BUt5

アーキテクチャの概要

今週の論文推薦は以上です。さらに最先端のAI研究論文をご覧になりたい方は、hyper.ai公式サイトの「最新論文」セクションをご覧ください。

質の高い研究成果や論文の提出を歓迎いたします。ご興味のある方は、NeuroStar WeChat(WeChat ID: Hyperai01)にご登録ください。

また来週お会いしましょう!