HyperAI超神経

概要

私たちは、単一の共同報酬信号を持つ協調型多エージェント強化学習の問題を研究しています。この学習問題のクラスは、しばしば大きな結合行動空間と観測空間のために困難です。完全に集中型および分散型アプローチにおいて、私たちは偽の報酬（spurious rewards）の問題と部分観測性により生じる「怠惰なエージェント」問題という現象を見つけました。これらの問題に対処するために、新しい価値分解ネットワークアーキテクチャを使用して個々のエージェントを訓練します。このアーキテクチャは、チームの価値関数をエージェントごとの価値関数に分解することを学びます。部分観測性のある多エージェントドメインにおける実験評価を行い、このような価値分解が優れた結果につながることを示しました。特に、重み共有、役割情報、情報チャンネルと組み合わせるとその効果が顕著です。

概要

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

概要

AIでAIを構築

HyperAI Newsletters

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

概要

AIでAIを構築

HyperAI Newsletters

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

価値分解ネットワークによる協調型多エージェント学習

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

価値分解ネットワークによる協調型多エージェント学習

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

価値分解ネットワークによる協調型多エージェント学習

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

概要

AIでAIを構築

HyperAI Newsletters