HyperAIHyperAI

Command Palette

Search for a command to run...

ビジョン・ワームホール:異種マルチエージェントシステムにおける潜在空間通信

Xiaoze Liu Ruowang Zhang Weichen Yu Siheng Xiong Liu He Feijie Wu Hoin Jung Matt Fredrikson Xiaoqian Wang Jing Gao

概要

大規模言語モデル(LLM)を活用したマルチエージェントシステム(MAS)は、高度な協調的推論を実現した一方で、離散的なテキスト通信による非効率性という課題に直面しており、これにより実行時のオーバーヘッドが大きく、情報の量子化損失も生じている。潜在状態の転送は高帯域の代替手段として有望であるが、従来の手法は送信者と受信者のアーキテクチャが同一であることを前提としており、あるいはペア固有の学習済み変換器に依存しており、異なるモデルファミリー間の不連続な多様体を持つ環境においてスケーラビリティとモジュール性が制限されている。本研究では、視覚言語モデル(VLM)の視覚インターフェースを再利用することで、モデル非依存かつテキスト不要な通信を実現する新規フレームワーク「Vision Wormhole」を提案する。普遍的な視覚符号化器(Universal Visual Codec)を導入し、異種の推論トレースを共有される連続潜在空間にマッピングし、受信エージェントの視覚パスに直接注入することで、視覚エンコーダをエージェント間のテレパシーを可能にする汎用ポートとして機能させる。本フレームワークはハブ・アンド・スポーク型トポロジーを採用し、ペアワイズのアライメント複雑度をO(N²)からO(N)へ削減する。さらに、ラベルフリーな教師-生徒蒸留(teacher-student distillation)を用いて、高速な視覚チャネルをテキストパスの堅牢な推論パターンと整合させる。異種モデルファミリー(例:Qwen-VL、Gemma)を対象とした広範な実験により、Vision Wormholeが標準的なテキストベースMASと同等の推論忠実度を維持しつつ、制御された比較条件下でエンドツーエンドのウォールクロック時間を大幅に短縮することを実証した。コードは以下のURLで公開されている:https://github.com/xz-liu/heterogeneous-latent-mas


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています