Command Palette
Search for a command to run...
أريا: نموذج مفتوح متعدد الوسائط ونوعي مزيج من الخبراء
أريا: نموذج مفتوح متعدد الوسائط ونوعي مزيج من الخبراء
Dongxu Li Yudong Liu Haoning Wu Yue Wang Zhiqi Shen Bowen Qu Xinyao Niu Guoyin Wang Bei Chen Junnan Li
الملخص
تُقدَّم المعلومات بأساليب متنوعة. وتعتبر النماذج الذكية الاصطناعية متعددة الوسائط (Multimodal native AI models) ضرورية لدمج المعلومات الواقعية وتقديم فهم شامل. وعلى الرغم من وجود نماذج متعددة الوسائط مملوكة (Proprietary) مُتعددة الوسائط، فإن نقص الشفافية والانفتاح يُشكل عقبات أمام عمليات الاعتماد عليها، ليس أقله التكييف والتعديل. ولسد هذا الفجوة، نُقدِّم "أريّا" (Aria)، وهي نموذج مفتوح المصدر متعدد الوسائط مُصمم من البداية، ويُظهر أداءً متفوّقًا في فئة المُستويات الأعلى (best-in-class) على طائفة واسعة من المهام متعددة الوسائط، والمهام اللغوية، ومهام البرمجة. يُعدّ "أريّا" نموذجًا مُختلطًا من الخبراء (Mixture-of-experts)، يُفعّل 3.9 مليار معلمة لكل رمز بصري (visual token)، و3.5 مليار معلمة لكل رمز نصي (text token). ويتفوّق على نموذج Pixtral-12B وLlama3.2-11B، ويُنافس النماذج المُتعددة الوسائط المُتقدمة المُملوكة في مهام متعددة الوسائط المختلفة. تم تدريب "أريّا" مسبقًا من الصفر وفقًا لPipeline مكوّن من أربع مراحل، تزود النموذج تدريجيًا بقدرات قوية في فهم اللغة، وفهم متعدد الوسائط، ودعم نوافذ محتوى طويلة، واتباع التعليمات. ونُفصح عن أوزان النموذج (model weights) مفتوحة المصدر، جنبًا إلى جنب مع مجموعة برمجية (codebase) تُسهّل الاعتماد على "أريّا" وتكيفه بسهولة في التطبيقات الواقعية.