Command Palette
Search for a command to run...
الثقب البصري: التواصل في الفضاء الخفي لأنظمة الوكلاء متعددة غير الموحدة
الثقب البصري: التواصل في الفضاء الخفي لأنظمة الوكلاء متعددة غير الموحدة
Xiaoze Liu Ruowang Zhang Weichen Yu Siheng Xiong Liu He Feijie Wu Hoin Jung Matt Fredrikson Xiaoqian Wang Jing Gao
الملخص
أصبحت أنظمة الوكلاء المتعددة (MAS) المُشغّلة بنماذج اللغة الكبيرة (LLMs) قادرة على تحقيق استدلال تعاوني متقدم، ومع ذلك تظل مُقيّدة بفعالية الاتصال النصي المنفصل، الذي يفرض تكاليف تشغيلية كبيرة وفقدانًا كبيرًا في المعلومات نتيجة التكميم. بينما يُقدّم نقل الحالة الخفية بديلًا ذا عرض نطاق عالٍ، فإن النهج الحالي إما يفترض بنى مُستقبل-مرسل متجانسة، أو يعتمد على مترجمات مُدرّبة خصيصًا لكل زوج من الوكلاء، مما يحد من قابلية التوسع والمرونة عبر عائلات النماذج المتنوعة ذات المجموعات المتمايزة. في هذا العمل، نُقدّم إطار "النفق البصري" (Vision Wormhole)، وهو إطار جديد يُعيد توظيف الواجهة البصرية لنماذج اللغة والصورة (VLMs) لتمكين اتصال لا يعتمد على النص ولا يعتمد على النموذج. من خلال إدخال كوديك بصري عالمي، نُحوّل آثار الاستدلال المتنوعة إلى فضاء لاتيني مستمر مشترك، ونُدمجها مباشرة في المسار البصري المستقبل، مما يجعل وحدة الترميز البصري تُعدّ منفذًا عالميًا للاستدلال التلابي بين الوكلاء. يستخدم إطارنا هيكلًا نجميًا (hub-and-spoke) لتقليل تعقيد التوافق الثنائي من O(N²) إلى O(N)، ويستفيد من دالة تدريب من نوع "المربي-الطالب" دون استخدام تسميات لتوحيد قناة البصر السريعة مع أنماط الاستدلال القوية في المسار النصي. أظهرت التجارب الواسعة عبر عائلات نماذج متنوعة (مثل Qwen-VL وGemma) أن النفق البصري يقلل من وقت الجدار الكلي في المقارنات المُحكَمة، مع الحفاظ على دقة الاستدلال المماثلة لنماذج MAS التقليدية القائمة على النص. يمكن الوصول إلى الكود عبر: https://github.com/xz-liu/heterogeneous-latent-mas