Unified-IO: نموذج موحد للرؤية واللغة والمهام متعددة الوسائط

نقترح نموذج Unified-IO، وهو نموذج يقوم بتنفيذ مجموعة واسعة من مهام الذكاء الاصطناعي تشمل المهام التقليدية لرؤية الحاسوب، مثل تقدير الوضع (Pose Estimation)، كشف الأشياء (Object Detection)، تقدير العمق (Depth Estimation) وإنشاء الصور (Image Generation)، بالإضافة إلى مهام رؤية الحاسوب واللغة، مثل إضافة التعليقات على المناطق (Region Captioning) والتعبير المرجعي (Referring Expression)، فضلاً عن معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة وإعادة صياغة الجمل. تطوير نموذج موحد واحد لهذه المجموعة الواسعة من المهام يشكل تحديات فريدة بسبب المدخلات والمخرجات المتباينة لكل مهمة، والتي تشمل صور RGB، خرائط البكسل الفردية، أقنعة ثنائية، صناديق الحدود واللغة. نحقق هذه التوحيد من خلال تجانس كل المدخلات والمخرجات المدعومة في سلسلة من عناصر القاموس المنفصلة. هذا التمثيل المشترك عبر جميع المهام يسمح لنا بتدريب هندسة واحدة تعتمد على المتحولات (Transformer-Based Architecture) بشكل مشترك على أكثر من 90 مجموعة بيانات متنوعة في مجالات الرؤية واللغة. يعد Unified-IO أول نموذج قادر على تنفيذ جميع المهام السبعة في معيار GRIT ويحقق نتائج قوية عبر 16 معيارًا مختلفًا مثل NYUv2-Depth، ImageNet، VQA2.0، OK-VQA، Swig، VizWizGround، BoolQ وSciTail دون أي ضبط دقيق خاص بالمهمة. يمكن الوصول إلى الكود والتطبيقات التوضيحية لـ Unified-IO عبر الرابط التالي: https://unified-io.allenai.org.