اكتشاف الأشياء بدون تمييز بين الفئات باستخدام متغير متعدد الأوضاع

ما الذي يشكل كائنًا؟ هذا السؤال قد ظل قائماً لفترة طويلة في مجال رؤية الحاسوب. بهدف الإجابة على هذا السؤال، تم تطوير العديد من النهج التي لا تعتمد على التعلم والتي تعتمد على التعلم لتقييم "كائنية" الأشياء. ومع ذلك، فإن هذه النهج عموماً لا تتوسع بشكل جيد عبر مجالات جديدة وأشياء غير مألوفة. في هذا البحث، نؤكد أن الطرق الحالية تفتقر إلى إشارة إشراف من أعلى إلى أسفل محكومة بمعاني يمكن للإنسان فهمها. ولأول مرة في الأدب العلمي، نثبت أن متغيرات متعددة الأوضاع من شبكات تحويل الرؤية (MViT) المدربة باستخدام أزواج صور-نصوص متناسقة يمكنها أن تربط هذه الفجوة بكفاءة. تجاربنا الواسعة عبر مختلف المجالات والأشياء الجديدة تظهر أداء MViTs المتفوق في تحديد موقع الكائنات العامة في الصور. بناءً على الملاحظة بأن MViTs الحالية لا تتضمن معالجة خصائص متعددة المقاييس وتتطلب عادة جداول زمنية أطول للتدريب، قمنا بتطوير هندسة MViT فعالة باستخدام انتباه متعدد المقاييس ودمج متأخر بين الرؤية واللغة. نوضح أهمية مقترحات MViTs في مجموعة متنوعة من التطبيقات، بما في ذلك اكتشاف الكائنات في العالم المفتوح واكتشاف الكائنات البارزة والمستترة، ومهمات الاكتشاف تحت الإشراف الذاتي والإشراف الخارجي. بالإضافة إلى ذلك، يمكن لمتغيرات MViT أن تولد مقترحات بشكل متكيف عند تقديم استعلام لغوي معين، مما يوفر تفاعلية محسنة.رمز المصدر: \url{https://git.io/J1HPY}.