HyperAIHyperAI
منذ 11 أيام

إلى تتبع كائنات أكثر مرونة ودقة باستخدام اللغة الطبيعية: خوارزميات وبيئة تقييم

Xiao Wang, Xiujun Shu, Zhipeng Zhang, Bo Jiang, Yaowei Wang, Yonghong Tian, Feng Wu
إلى تتبع كائنات أكثر مرونة ودقة باستخدام اللغة الطبيعية: خوارزميات وبيئة تقييم
الملخص

الاستقصاء بناءً على وصف لغوي طبيعي هو موضوع بحثي ناشئ يهدف إلى تحديد موقع الكائن المستهدف في تسلسل الفيديو بناءً على وصف لغوي له. مقارنةً بالاستقصاء التقليدي القائم على مربعات الحدود (BBox)، يُرشد هذا النموذج استقصاء الكائنات بمعلومات شمولية عالية المستوى، ويحل مشكلة الغموض المرتبط بمربعات الحدود، ويربط بشكل عضوي بين البحث المحلي والبحث الشامل. وقد تؤدي هذه المزايا إلى أداء أكثر مرونة وقوة ودقة في الاستقصاء في السياقات العملية. ومع ذلك، فإن المُستقصيات القائمة على الوصف اللغوي التي تم تطويرها ومقارنة أداؤها حتى الآن تعتمد على مجموعات بيانات معيارية تم إعدادها لاستقصاء الكائنات القائم على مربعات الحدود، مما لا يمكنه عكس القوة الحقيقية للاستقصاء القائم على اللغة. في هذا العمل، نقترح معيارًا جديدًا مخصصًا بشكل خاص للاستقصاء القائم على اللغة، يتضمن مجموعة بيانات كبيرة، وطرق أساسية قوية ومتنوعة. وبشكل خاص، جمعنا 2000 تسلسل فيديو (بإجمالي 1,244,340 إطارًا و663 كلمة)، وقسمناها إلى 1300 تسلسلًا للتدريب و700 تسلسلًا للاختبار. وتم تضمين تسمية كثيفة بجملة واحدة باللغة الإنجليزية وحدود مربعات الكائن المستهدف لكل تسلسل فيديو. كما أدخلنا تحديين جديدين ضمن مجموعة البيانات TNL2K لمهام استقصاء الكائنات، وهما: العينات المُضادة (adversarial samples) وتبديل الوسائط (modality switch). وتم اقتراح طريقة أساسية قوية تعتمد على نموذج بحث مُتكيف بين المحلي والشامل، لتكون مرجعًا للمشاريع المستقبلية للمقارنة. نؤمن أن هذا المعيار سيُسهم بشكل كبير في دفع عجلة الأبحاث المتعلقة باستقصاء الكائنات الموجهة باللغة.

إلى تتبع كائنات أكثر مرونة ودقة باستخدام اللغة الطبيعية: خوارزميات وبيئة تقييم | أحدث الأوراق البحثية | HyperAI