HyperAIHyperAI

Command Palette

Search for a command to run...

المطابقة المحلية بين الرؤية واللغة لاكتشاف الأشياء بمفردات مفتوحة

María A. Bravo Sudhanshu Mittal Thomas Brox

الملخص

في هذا العمل، نقترح طريقة للكشف عن الأشياء ذات المفردات المفتوحة تعتمد على أزواج الصور والتعليقات (image-caption pairs)، وتتعلم الكشف عن فئات أشياء جديدة إلى جانب مجموعة معينة من الفئات المعروفة. إنها طريقة تدريب ثنائية المرحلة، حيث يتم في المرحلة الأولى استخدام تقنية مطابقة الصور والتعليقات بمساعدة الموقع (location-guided image-caption matching) لتعلم التسميات الفئوية للأصناف الجديدة والمعروفة بطريقة ضعيفة الإشراف (weakly-supervised manner)، وفي المرحلة الثانية يتم تخصيص النموذج لمهمة الكشف عن الأشياء باستخدام التسميات الفئوية المعروفة. نظهر أن نموذج اللغة البسيط يناسب بشكل أفضل من نموذج اللغة السياقي الكبير في كشف الأشياء الجديدة. بالإضافة إلى ذلك، نقدم تقنية تنظيم الثبات (consistency-regularization) لاستغلال معلومات أزواج الصور والتعليقات بشكل أفضل. تقارن طريقتنا بشكل ملائم مع الطرق الحالية للكشف عن المفردات المفتوحة بينما تكون فعالة من حيث البيانات. يمكن الوصول إلى شفرة المصدر من خلال الرابط: https://github.com/lmb-freiburg/locov .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp