ميتا-إكسبلور: استكشاف تسلسلي لتنقل الرؤية واللغة باستخدام التأسيس الطيفي للكائنات في المشهد

التحدي الرئيسي في التوجيه البصري واللغوي (VLN) يتمثل في كيفية فهم التعليمات باللغة الطبيعية في بيئة غير معروفة. أما الحد الأقصى للقيود التي تواجه الخوارزميات التقليدية لـ VLN فهو أن الخطأ في إجراء ما يؤدي إلى فشل الوكيل في اتباع التعليمات أو إلى استكشاف مناطق غير ضرورية، مما يدفع الوكيل إلى طريق لا يمكن استعادته. ولحل هذه المشكلة، نقترح "ميتا-إكسبلور" (Meta-Explore)، وهي طريقة توجيه هرمية تُطبّق سياسة استغلال لتصحيح الإجراءات الخاطئة الأخيرة. ونُظهر أن سياسة الاستغلال، التي تُوجّه الوكيل نحو هدف محلي مُختار بعناية من بين الحالات غير المُستكشفة ولكن المرئية، تتفوّق على الأسلوب الذي يُوجّه الوكيل إلى حالة تم استكشافها سابقًا. كما نُبرز الحاجة إلى تخيّل استكشافات مُريرة باستخدام أدلة ذات معنى معنوي. والجُوهر في نهجنا يكمن في فهم توزيع الكائنات حول الوكيل في المجال الطيفي. وبشكل محدد، نقدّم تمثيلًا بصريًا جديدًا يُسمى "طيف الكائنات في المشهد" (Scene Object Spectrum - SOS)، والذي يُطبّق تحويل فورييه ثنائي الأبعاد حسب الفئة على الكائنات المُكتشفة. وبدمج سياسة الاستغلال مع ميزات SOS، يستطيع الوكيل تصحيح مساره من خلال اختيار هدف محلي واعد. وقد قُمنا بتقييم طريقة العمل لدينا على ثلاث بenchmark لـ VLN: R2R وSOON وREVERIE. وتبين أن ميتا-إكسبلور يتفوّق على باقي الطرق المعيارية، ويُظهر أداءً مُعاملاً ملحوظًا. وبالإضافة إلى ذلك، يُحسّن البحث عن الأهداف المحلية باستخدام ميزات SOS في المجال الطيفي معدل النجاح بنسبة 17.1%، ويزيد معيار SPL بنسبة 20.6% في بenchmark SOON.