HyperAIHyperAI
منذ 2 أشهر

الإشراف الويبي على توسيع المفاهيم لنموذج الرؤية العام

Amita Kamath; Christopher Clark; Tanmay Gupta; Eric Kolve; Derek Hoiem; Aniruddha Kembhavi
الإشراف الويبي على توسيع المفاهيم لنموذج الرؤية العام
الملخص

أنظمة الرؤية العامة (GPV) هي نماذج مصممة لحل مجموعة واسعة من المهام البصرية دون الحاجة إلى تغييرات في الهيكل. اليوم، تعتمد أنظمة GPV بشكل أساسي على تعلم المهارات والمفاهيم من قواعد بيانات كبيرة ومراقبة بالكامل. ومع ذلك، فإن توسيع نطاق هذه الأنظمة ليشمل عشرات الآلاف من المفاهيم عن طريق الحصول على بيانات لتعلم كل مفهوم لكل مهارة يصبح سريعاً غير عملي. يقدم هذا العمل بديلاً فعالاً وغير مكلف: تعلم المهارات من قواعد البيانات المراقبة، وتعلم المفاهيم من البحث عن الصور على الإنترنت، والاستفادة من خاصية رئيسية لأنظمة GPV: القدرة على نقل المعرفة البصرية بين المهارات.لقد استخدمنا قاعدة بيانات تحتوي على أكثر من مليون صورة تغطي أكثر من 10,000 مفهوم بصري لإظهار توسيع المفاهيم بطريقة شبه مستقلة عبر الإنترنت لاثنين من أنظمة GPV القائمة (GPV-1 و VL-T5) في ثلاثة مقاييس: خمسة مجموعات بيانات قائمة على COCO (80 مفهوماً أساسياً)، سلسلة جديدة من خمسة مجموعات بيانات مستمدة من مستودعات OpenImages و VisualGenome (حوالي 500 مفهوم)، ومجموعة بيانات مشتقة من الإنترنت (أكثر من 10,000 مفهوم). كما اقترحنا هندسة جديدة تسمى GPV-2 التي تدعم مجموعة متنوعة من المهام - بدءًا من المهام البصرية مثل التصنيف والتوضيح، وصولاً إلى المهام البصرية+اللغوية مثل الإجابة على الأسئلة وإنشاء العناوين، بالإضافة إلى مهمات متخصصة مثل اكتشاف التفاعل بين الإنسان والأشياء. يستفيد GPV-2 بشكل كبير من البيانات الويب ويتفوق على GPV-1 و VL-T5 في هذه المقاييس. يمكن الوصول إلى بياناتها وكودها والعرض التوضيحي عبر الإنترنت على الرابط https://prior.allenai.org/projects/gpv2.

الإشراف الويبي على توسيع المفاهيم لنموذج الرؤية العام | أحدث الأوراق البحثية | HyperAI