HyperAIHyperAI
منذ 2 أشهر

اكتشاف الأشياء ذات المفردات المفتوحة عبر تقطير المعرفة البصرية واللغوية

Xiuye Gu; Tsung-Yi Lin; Weicheng Kuo; Yin Cui
اكتشاف الأشياء ذات المفردات المفتوحة عبر تقطير المعرفة البصرية واللغوية
الملخص

نهدف إلى تطوير اكتشاف الأشياء بمعجم مفتوح، والذي يكتشف الأشياء الموصوفة بواسطة مدخلات نصية عشوائية. التحدي الأساسي هو توفر بيانات التدريب. من المكلف زيادة عدد الفئات الموجودة في قواعد بيانات اكتشاف الأشياء الحالية. لتجاوز هذا التحدي، نقترح طريقة التدريب ViLD عبر تقنية استخلاص المعرفة من الرؤية واللغة (Vision and Language Knowledge Distillation). تعتمد طريقتنا على استخلاص المعرفة من نموذج تصنيف صور معجمي مفتوح تم تدريبه مسبقًا (المعلم) ونقلها إلى كاشف ذو مرحلتين (الطالب). تحديدًا، نستخدم النموذج المعلم لترميز النصوص الفئوية ومناطق الصور للاقتراحات المرتبطة بالأشياء. ثم نقوم بتدريب الكاشف الطالب بحيث يتم تنسيق تمثيلات المناطق للصناديق التي تم اكتشافها مع التمثيلات النصية والصورية المستنبطة بواسطة النموذج المعلم. قمنا بتقييم أداء ViLD على LVIS باستبعاد جميع الفئات النادرة كفئات جديدة غير مشاهدة أثناء التدريب. حقق ViLD دقة AP$r$ للقناع بنسبة 16.1 باستخدام هيكل ResNet-50، حتى تفوق على العينة الخاضعة للإشراف بمقدار 3.8. عند تدريبه باستخدام نموذج معلم أقوى وهو ALIGN، يصل ViLD إلى دقة AP$_r$ بنسبة 26.3. يمكن للنموذج الانتقال مباشرة إلى قواعد بيانات أخرى دون إعادة التuning، حيث حقق نسبة AP${50}$ بلغت 72.2 على PASCAL VOC، ونسبة AP بلغت 36.6 على COCO، ونسبة AP بلغت 11.8 على Objects365. وعلى COCO، يتفوق ViLD على أفضل ما سبقه في مجال الدقة الجديدة AP بمقدار 4.8 وفي الدقة الإجمالية AP بمقدار 11.4. تم إصدار الشيفرة البرمجية والمظهر بشكل مفتوح المصدر في https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild.请注意,这里有一些术语在阿拉伯语中可能没有完全对应的词汇,因此我在括号中标注了原文以确保信息的完整性。例如“finetuning”被翻译为“التuning”,但根据上下文,也可以理解为“微调”。如果有特定的阿拉伯语术语,请告知我以便进一步优化翻译。

اكتشاف الأشياء ذات المفردات المفتوحة عبر تقطير المعرفة البصرية واللغوية | أحدث الأوراق البحثية | HyperAI