HyperAIHyperAI

Command Palette

Search for a command to run...

استدلال الخطوات البصرية باستخدام wikiHow

Yue Yang; Artemis Panagopoulou; Qing Lyu; Li Zhang; Mark Yatskar; Chris Callison-Burch

الملخص

فهم التسلسل الزمني للخطوات اللازمة لإتمام هدف يمكن أن يساعد الأنظمة الذكية في فهم الأنشطة البشرية. لقد تم دراسة مهمة استدلال الهدف والخطوات في مجال معالجة اللغة الطبيعية (NLP) من قبل، حيث ركزت على النصوص. نقدم الآن المكافئ البصري لهذه المهمة. نقترح مهمة استدلال الهدف والخطوات البصرية (VGSI)، حيث يتم تقديم هدف نصي للنموذج ويتعين عليه اختيار أي من الصور الأربعة يمثل خطوة ممكنة نحو تحقيق ذلك الهدف. باستخدام مجموعة بيانات جديدة تم جمعها من موقع wikiHow تتكون من 772,277 صورة تمثل أنشطة بشرية، نظهر أن مهمتنا تشكل تحديًا للنماذج متعددة الوسائط المتقدمة. علاوة على ذلك، يمكن نقل التمثيل متعدد الوسائط المستمد من بياناتنا بشكل فعال إلى مجموعات بيانات أخرى مثل HowTo100m، مما يزيد دقة VGSI بنسبة 15 - 20%. ستيسّر مهمتنا عملية الاستدلال متعددة الوسائط حول الأحداث الإجرائية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استدلال الخطوات البصرية باستخدام wikiHow | مستندات | HyperAI