HyperAIHyperAI

Command Palette

Search for a command to run...

الإشراف الويبي على توسيع المفاهيم لنموذج الرؤية العام

Amita Kamath Christopher Clark Tanmay Gupta Eric Kolve Derek Hoiem Aniruddha Kembhavi

الملخص

أنظمة الرؤية العامة (GPV) هي نماذج مصممة لحل مجموعة واسعة من المهام البصرية دون الحاجة إلى تغييرات في الهيكل. اليوم، تعتمد أنظمة GPV بشكل أساسي على تعلم المهارات والمفاهيم من قواعد بيانات كبيرة ومراقبة بالكامل. ومع ذلك، فإن توسيع نطاق هذه الأنظمة ليشمل عشرات الآلاف من المفاهيم عن طريق الحصول على بيانات لتعلم كل مفهوم لكل مهارة يصبح سريعاً غير عملي. يقدم هذا العمل بديلاً فعالاً وغير مكلف: تعلم المهارات من قواعد البيانات المراقبة، وتعلم المفاهيم من البحث عن الصور على الإنترنت، والاستفادة من خاصية رئيسية لأنظمة GPV: القدرة على نقل المعرفة البصرية بين المهارات.لقد استخدمنا قاعدة بيانات تحتوي على أكثر من مليون صورة تغطي أكثر من 10,000 مفهوم بصري لإظهار توسيع المفاهيم بطريقة شبه مستقلة عبر الإنترنت لاثنين من أنظمة GPV القائمة (GPV-1 و VL-T5) في ثلاثة مقاييس: خمسة مجموعات بيانات قائمة على COCO (80 مفهوماً أساسياً)، سلسلة جديدة من خمسة مجموعات بيانات مستمدة من مستودعات OpenImages و VisualGenome (حوالي 500 مفهوم)، ومجموعة بيانات مشتقة من الإنترنت (أكثر من 10,000 مفهوم). كما اقترحنا هندسة جديدة تسمى GPV-2 التي تدعم مجموعة متنوعة من المهام - بدءًا من المهام البصرية مثل التصنيف والتوضيح، وصولاً إلى المهام البصرية+اللغوية مثل الإجابة على الأسئلة وإنشاء العناوين، بالإضافة إلى مهمات متخصصة مثل اكتشاف التفاعل بين الإنسان والأشياء. يستفيد GPV-2 بشكل كبير من البيانات الويب ويتفوق على GPV-1 و VL-T5 في هذه المقاييس. يمكن الوصول إلى بياناتها وكودها والعرض التوضيحي عبر الإنترنت على الرابط https://prior.allenai.org/projects/gpv2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp