HyperAIHyperAI

Command Palette

Search for a command to run...

Unified-IO: نموذج موحد للرؤية واللغة والمهام متعددة الوسائط

Jiasen Lu†* Christopher Clark†* Rowan Zellers†○ Roozbeh Mottaghi†○ Aniruddha Kembhavi†○

الملخص

نقترح نموذج Unified-IO، وهو نموذج يقوم بتنفيذ مجموعة واسعة من مهام الذكاء الاصطناعي تشمل المهام التقليدية لرؤية الحاسوب، مثل تقدير الوضع (Pose Estimation)، كشف الأشياء (Object Detection)، تقدير العمق (Depth Estimation) وإنشاء الصور (Image Generation)، بالإضافة إلى مهام رؤية الحاسوب واللغة، مثل إضافة التعليقات على المناطق (Region Captioning) والتعبير المرجعي (Referring Expression)، فضلاً عن معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة وإعادة صياغة الجمل. تطوير نموذج موحد واحد لهذه المجموعة الواسعة من المهام يشكل تحديات فريدة بسبب المدخلات والمخرجات المتباينة لكل مهمة، والتي تشمل صور RGB، خرائط البكسل الفردية، أقنعة ثنائية، صناديق الحدود واللغة. نحقق هذه التوحيد من خلال تجانس كل المدخلات والمخرجات المدعومة في سلسلة من عناصر القاموس المنفصلة. هذا التمثيل المشترك عبر جميع المهام يسمح لنا بتدريب هندسة واحدة تعتمد على المتحولات (Transformer-Based Architecture) بشكل مشترك على أكثر من 90 مجموعة بيانات متنوعة في مجالات الرؤية واللغة. يعد Unified-IO أول نموذج قادر على تنفيذ جميع المهام السبعة في معيار GRIT ويحقق نتائج قوية عبر 16 معيارًا مختلفًا مثل NYUv2-Depth، ImageNet، VQA2.0، OK-VQA، Swig، VizWizGround، BoolQ وSciTail دون أي ضبط دقيق خاص بالمهمة. يمكن الوصول إلى الكود والتطبيقات التوضيحية لـ Unified-IO عبر الرابط التالي: https://unified-io.allenai.org.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp