HyperAIHyperAI

Command Palette

Search for a command to run...

الربط البصري المشترك والتعقب باستخدام مواصفات اللغة الطبيعية

Li Zhou Zikun Zhou Kaige Mao Zhenyu He

الملخص

يهدف التتبع بناءً على التحديد باللغة الطبيعية إلى تحديد الهدف المُشار إليه في تسلسل صور بناءً على وصف باللغة الطبيعية. تحل الخوارزميات الحالية هذه المشكلة في خطوتين: التأصيل البصري والتتبع، حيث يتم استخدام نموذج منفصل للتأصيل البصري ونموذج آخر منفصل للتتبع، كلٌّ على حدة. يتجاهل هذا الإطار المُفصَّل الارتباط بين التأصيل البصري والتتبع، وهو أن وصفات اللغة الطبيعية توفر إشارات معنوية عامة لتحديد موقع الهدف في كلا الخطوتين. علاوةً على ذلك، يصعب تدريب هذا الإطار المُفصَّل بشكل متكامل من البداية إلى النهاية. ولحل هذه المشكلات، نقترح إطارًا موحدًا للتأصيل البصري والتتبع، يعيد صياغة المهمتين إلى مهمة واحدة موحدة: تحديد الهدف المُشار إليه بناءً على الرموز البصرية-اللغوية المعطاة. وبشكل خاص، نقترح وحدة نمذجة العلاقات من مصادر متعددة لبناء علاقة فعالة بين الرموز البصرية-اللغوية والصورة المُختبرة. بالإضافة إلى ذلك، صممنا وحدة نمذجة زمنية لتوفير إشارة زمنية بمساعدة المعلومات المعنوية العامة لنموذجنا، مما يُحسّن بشكل فعّال قدرة النموذج على التكيّف مع التغيرات في مظهر الهدف. تُظهر النتائج التجريبية الواسعة على مجموعات البيانات TNL2K وLaSOT وOTB99 وRefCOCOg أن طريقة التتبع لدينا تتفوّق على الخوارزميات الرائدة في مجال التتبع والتأصيل. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/lizhou-cs/JointNLT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الربط البصري المشترك والتعقب باستخدام مواصفات اللغة الطبيعية | مستندات | HyperAI