HyperAIHyperAI

Command Palette

Search for a command to run...

HOP: التدريب المسبق المُدرك للتاريخ والنظام للتنقل البصري-اللغوي

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

الملخص

تم اعتماد التدريب المسبق في عدد قليل من الدراسات الحديثة المتعلقة بالتنقل البصري-اللغوي (VLN). ومع ذلك، فإن الطرق السابقة للتدريب المسبق في VLN إما تفتقر إلى القدرة على توقع الإجراءات المستقبلية أو تتجاهل سياقات المسار، وهي عناصر ضرورية لعملية تنقل تُطبَّق بطريقة جشعة. في هذا العمل، ولتعزيز تعلم التوافق المكاني-الزمني بين الرؤية والنص، فضلاً عن تعزيز قدرة الوكيل على اتخاذ القرار، نقترح نموذجًا جديدًا للتدريب المسبق يراعي التاريخ والترتيب (HOP) مع أهداف مخصصة لـ VLN، تُستخدَم فيها الملاحظات السابقة وتدعم توقع الإجراءات المستقبلية. وبشكل خاص، وبالإضافة إلى المهام الشائعة مثل نمذجة اللغة المُقنَّعة (MLM) وتوافق المسار والتعليمات (TIM)، قمنا بتصميم مهمتين بديلتين لنمذجة المعلومات الزمنية: نمذجة ترتيب المسار (TOM) ونمذجة ترتيب المجموعات (GOM). علاوة على ذلك، تم تعزيز توقع إجراءات التنقل من خلال إدخال مهمة توقع الإجراء مع التاريخ (APH)، التي تأخذ بعين الاعتبار التصورات البصرية السابقة. أظهرت النتائج التجريبية الواسعة على أربع مهام تطبيقية لـ VLN (R2R، REVERIE، NDH، RxR) فعالية المنهج المقترح مقارنةً بعدة وكالات من الطراز الرائد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp