COTR: متحول الرسائل للتطابق بين الصور

نقترح إطارًا جديدًا لاكتشاف التوافق في الصور يستند إلى شبكة عصبية عميقة، حيث تجد هذه الشبكة توافق نقطة استفسار معينة في إحدى الصورين في الصورة الأخرى. من خلال هذا الإطار، يمكن للمستخدم اختيار الاستفسار فقط عن النقاط ذات الاهتمام والحصول على توافق نادر، أو الاستفسار عن جميع النقاط في صورة ما والحصول على خرائط كثيفة. من المهم أن نلاحظ أنه لتقديم الأولوية للتوافقات المحلية والعالمية ولتمكين نموذجنا من ربط المناطق المختلفة في الصور باستخدام أكثر هذه التوافقات صلة، قمنا بتنفيذ شبكتنا باستخدام متحول (Transformer). أثناء مرحلة الاستدلال، نطبق شبكتنا للتوافق عن طريق التقريب المتكرر حول التقديرات، مما ينتج خط أنابيب متعدد المقاييس قادر على تقديم توافقات عالية الدقة. طريقتنا تتفوق بشكل كبير على أفضل الأساليب الحالية في مشكلات التوافق النادرة والكثيفة على عدة مجموعات بيانات ومهمات، بدءًا من الاستереو ذو الأساس العريض ووصولًا إلى الجريان البصري، دون الحاجة لأي إعادة تدريب لنظام معين. نتعهد بإطلاق البيانات والكود وأدوات التدريب اللازمة من البداية لضمان قابلية الإعادة.