HyperAIHyperAI
منذ 7 أيام

AnyMAL: نموذج لغوي مُعزّز بأي وسيلة، فعّال وقابل للتوسع

Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
AnyMAL: نموذج لغوي مُعزّز بأي وسيلة، فعّال وقابل للتوسع
الملخص

نقدّم نموذج اللغة المُعزّز بأي وسيلة (AnyMAL)، وهو نموذج موحّد يُنَظِّرُ حول إشارات وسائط مدخلة متنوعة (أي النص، الصورة، الفيديو، الصوت، مستشعرات الحركة IMU)، ويُولِّد ردودًا نصية. يرث AnyMAL القدرات القوية على التفكير القائم على النص من النماذج اللغوية الكبيرة المتطورة (LLMs) مثل LLaMA-2 (70B)، ويتولّى تحويل الإشارات الخاصة بكل وسيلة إلى الفضاء النصي المشترك من خلال وحدة توحيد مُدرّبة مسبقًا. ولتعزيز قدرات النموذج متعدد الوسائط بشكل أكبر، نُدرّب النموذج باستخدام مجموعة تعليم متعددة الوسائط تم جمعها يدويًا لتغطية موضوعات ومهمات متنوعة تتجاوز الأسئلة والأجوبة البسيطة. ونُجري تحليلًا تجريبيًا شاملاً يشمل تقييمات بشرية وآلية، ونُظهر أداءً من الدرجة الأولى في مهام متعددة الوسائط مختلفة.

AnyMAL: نموذج لغوي مُعزّز بأي وسيلة، فعّال وقابل للتوسع | أحدث الأوراق البحثية | HyperAI