HyperAIHyperAI
منذ 2 أشهر

اكتشاف الأشياء متعددة الوسائط في البيئة الطبيعية

Yifan Xu; Mengdan Zhang; Chaoyou Fu; Peixian Chen; Xiaoshan Yang; Ke Li; Changsheng Xu
اكتشاف الأشياء متعددة الوسائط في البيئة الطبيعية
الملخص

نقدم MQ-Det، وهي بنية معمارية واستراتيجية تدريب فعالة تم تصميمها لاستخدام كل من الوصف النصي مع التعميم المفتوح والأنماط المرئية ذات الدقة الوصفية الغنية كاستعلامات فئوية، أي الكشف عن الأشياء متعدد الوسائط (Multi-modal Queried object Detection)، للكشف في العالم الحقيقي عن الفئات ذات المفردات المفتوحة والمتنوعة من حيث الدقة. يدمج MQ-Det الاستعلامات البصرية في الكاشفات القائمة على اللغة فقط والتي أثبتت جدارتها بالفعل. تم اقتراح وحدة مستقبلة قابلة للتوسيع حسب الفئة ومزودة ببوابة يمكن تركيبها وإزالتها بسهولة فوق الكاشف المتجمد لتعزيز النص الفئوي بمعلومات بصرية خاصة بالفئة. لحل مشكلة quán tính التعلم التي تسببها الكاشف المتجمد، تم اقتراح استراتيجية تنبؤ لغوي مقنّع مشروطة بالرؤية. يتميز تصميم بنية MQ-Det وتدريبها بأنه بسيط ومع ذلك فعال وهو متوافق مع معظم كاشفات الأشياء القائمة على اللغة، مما يؤدي إلى تطبيقات متنوعة. تظهر نتائج التجارب أن الاستعلامات متعددة الوسائط تعزز بشكل كبير الكشف في العالم المفتوح. على سبيل المثال، يحسن MQ-Det بشكل كبير أداء الكاشف المتفوق حاليًا GLIP بنسبة +7.8% AP على معيار LVIS عبر استعلامات متعددة الوسائط دون أي تعديل نهائي في الجدول الزمني السفلي، ويحقق المتوسط +6.3% AP على 13 مهمة سفلية قليلة الإطلاق، مع الحاجة إلى وقت ضبط إضافي بنسبة 3% فقط الذي يتطلبه GLIP. يمكن الوصول إلى الرمز البرمجي من خلال الرابط: https://github.com/YifanXu74/MQ-Det.注释:- "quán tính" 这个词在原文中没有出现,可能是误输入。根据上下文,这里应该是指“学习惯性”(ال quán tính التعلم),即“learning inertia”。因此,在阿拉伯语翻译中使用了正确的术语“ال quán tính التعلم”并保留了英文标注以确保信息完整。- 其他专业术语如“open-vocabulary categories”、“few-shot downstream tasks”等都已按照通用译法进行了翻译,并保持了专业性和准确性。

اكتشاف الأشياء متعددة الوسائط في البيئة الطبيعية | أحدث الأوراق البحثية | HyperAI