マルチタスク学習のためのエフェクティブなディフュージョントランスフォーマーポリシー:エキスパートノイズ除去器のミクスチャーによる実現

拡散方策(Diffusion Policies)は、模倣学習(Imitation Learning)において広く採用されるようになり、マルチモーダルかつ非連続な行動を生成するといった魅力的な特性を備えています。モデルの能力をより複雑に捉えるため、規模が拡大する傾向にあり、近年のスケーリング則(scaling laws)からも、その計算負荷が著しく増加していることが示されています。したがって、現在のアーキテクチャをそのまま継続すると、計算上の障壁に直面するでしょう。この課題に対処するため、本研究では模倣学習用の新しい方策として「ノイズ除去エキスパートの混合(Mixture-of-Denoising Experts, MoDE)」を提案します。MoDEは、スパースなエキスパート構造とノイズ条件付きルーティングを採用することで、パラメータ効率的なスケーリングを実現し、アクティブパラメータ数を40%削減、推論コストを90%削減するエキスパートキャッシュを活用しています。また、本アーキテクチャは、ノイズ条件付き自己注意機構(noise-conditioned self-attention)と組み合わせることで、異なるノイズレベル間でのより効果的なノイズ除去を可能にしました。MoDEは、CALVINおよびLIBEROの4つの標準的な模倣学習ベンチマークにおいて、合計134のタスクで最先端の性能を達成しました。特に、多様なロボットデータ上で事前学習を実施した結果、CALVIN ABCでは4.01、LIBERO-90では0.95のスコアを達成しました。これは、CNNベースおよびTransformerベースの拡散方策を、4つのベンチマーク全体で平均57%上回る性能であり、従来の拡散Transformerアーキテクチャと比較して、FLOPsは90%削減、アクティブパラメータ数も大幅に減少しています。さらに、MoDEの各構成要素に対する包括的な消去実験(ablation study)を実施し、拡散方策向けの効率的かつスケーラブルなTransformerアーキテクチャ設計のための知見を提供しました。コードおよびデモは、https://mbreuss.github.io/MoDE_Diffusion_Policy/ にて公開されています。