الرؤية، والاستماع، والذكرى، والاستنتاج: وكيل متعدد الوسائط يمتلك ذاكرة طويلة الأمد

نقدّم M3-Agent، إطار عمل ذكي متعدد الوسائط جديد يتمتع بذاكرة طويلة المدى. مثل البشر، يمكن 통 M3-Agent معالجة المدخلات البصرية والصوتية في الزمن الفعلي لبناء وتحديث ذاكرته طويلة المدى. إلى جانب الذاكرة السردية، يطور M3-Agent أيضًا ذاكرة معنوية، مما يمكّنه من تجميع المعرفة بالعالم مع مرور الزمن. وتُنظَّم ذاكرته بشكل يركّز على الكيانات، وبصيغة متعددة الوسائط، ما يسمح بفهم أعمق وأكثر اتساقًا للبيئة المحيطة. عند تلقّيه تعليمات، يقوم M3-Agent بشكل تلقائي بإجراء تفكير متعدد الدورات ومتكرر، واسترجاع المعلومات ذات الصلة من الذاكرة لأداء المهمة المطلوبة. ولتقييم فعالية الذاكرة والتفكير القائم على الذاكرة في الوكلاء المتعددي الوسائط، قمنا بتطوير M3-Bench، وهو معيار جديد لاختبار الإجابة على الأسئلة في مقاطع فيديو طويلة. يتكوّن M3-Bench من 100 مقطع فيديو جديد تم تسجيله في العالم الحقيقي من منظور روبوت (M3-Bench-robot)، و929 مقطع فيديو مستمدة من الإنترنت في سياقات متنوعة (M3-Bench-web). وتم تسمية أزواج الأسئلة والإجابات المصممة لاختبار القدرات الأساسية الضرورية لتطبيقات الوكلاء، مثل فهم البشر، واستخلاص المعرفة العامة، والتفكير عبر الوسائط المختلفة. أظهرت النتائج التجريبية أن M3-Agent، الذي تم تدريبه باستخدام التعلم بالتعزيز، يتفوّق على أقوى نموذج مقارن، وهو وكيل مُوجه باستخدام Gemini-1.5-pro وGPT-4o، بتحقيق دقة أعلى بنسبة 6.7% و7.7% و5.3% على التوالي في M3-Bench-robot وM3-Bench-web وVideoMME-long. إن عملنا يُسهم في تطوير الوكلاء المتعددي الوسائط نحو ذاكرة طويلة المدى أكثر تشابهًا مع البشر، ويقدّم رؤى حول تصميمها العملي. يمكن الوصول إلى النموذج والكود والبيانات عبر الرابط: https://github.com/bytedance-seed/m3-agent