HyperAIHyperAI

Command Palette

Search for a command to run...

ميتا-إكسبلور: استكشاف تسلسلي لتنقل الرؤية واللغة باستخدام التأسيس الطيفي للكائنات في المشهد

Minyoung Hwang Jaeyeon Jeong Minsoo Kim Yoonseon Oh Songhwai Oh

الملخص

التحدي الرئيسي في التوجيه البصري واللغوي (VLN) يتمثل في كيفية فهم التعليمات باللغة الطبيعية في بيئة غير معروفة. أما الحد الأقصى للقيود التي تواجه الخوارزميات التقليدية لـ VLN فهو أن الخطأ في إجراء ما يؤدي إلى فشل الوكيل في اتباع التعليمات أو إلى استكشاف مناطق غير ضرورية، مما يدفع الوكيل إلى طريق لا يمكن استعادته. ولحل هذه المشكلة، نقترح "ميتا-إكسبلور" (Meta-Explore)، وهي طريقة توجيه هرمية تُطبّق سياسة استغلال لتصحيح الإجراءات الخاطئة الأخيرة. ونُظهر أن سياسة الاستغلال، التي تُوجّه الوكيل نحو هدف محلي مُختار بعناية من بين الحالات غير المُستكشفة ولكن المرئية، تتفوّق على الأسلوب الذي يُوجّه الوكيل إلى حالة تم استكشافها سابقًا. كما نُبرز الحاجة إلى تخيّل استكشافات مُريرة باستخدام أدلة ذات معنى معنوي. والجُوهر في نهجنا يكمن في فهم توزيع الكائنات حول الوكيل في المجال الطيفي. وبشكل محدد، نقدّم تمثيلًا بصريًا جديدًا يُسمى "طيف الكائنات في المشهد" (Scene Object Spectrum - SOS)، والذي يُطبّق تحويل فورييه ثنائي الأبعاد حسب الفئة على الكائنات المُكتشفة. وبدمج سياسة الاستغلال مع ميزات SOS، يستطيع الوكيل تصحيح مساره من خلال اختيار هدف محلي واعد. وقد قُمنا بتقييم طريقة العمل لدينا على ثلاث بenchmark لـ VLN: R2R وSOON وREVERIE. وتبين أن ميتا-إكسبلور يتفوّق على باقي الطرق المعيارية، ويُظهر أداءً مُعاملاً ملحوظًا. وبالإضافة إلى ذلك، يُحسّن البحث عن الأهداف المحلية باستخدام ميزات SOS في المجال الطيفي معدل النجاح بنسبة 17.1%، ويزيد معيار SPL بنسبة 20.6% في بenchmark SOON.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ميتا-إكسبلور: استكشاف تسلسلي لتنقل الرؤية واللغة باستخدام التأسيس الطيفي للكائنات في المشهد | مستندات | HyperAI