HyperAIHyperAI

Command Palette

Search for a command to run...

تحويل الصور الثابتة باستخدام النماذج التوليدية للكشف عن الأشياء البارزة في الفيديو

Suhwan Cho Minhyeok Lee Jungho Lee Sangyoun Lee

الملخص

في العديد من مهام معالجة الفيديو، يعد الاستفادة من قواعد بيانات الصور على نطاق واسع استراتيجية شائعة، حيث تكون بيانات الصور أكثر وفرة وتيسّر نقل المعرفة الشامل. يشمل النهج التقليدي لمحاكاة الفيديو من الصور الثابتة تطبيق التحويلات المكانية مثل التحويلات الأفينية والتشويه الطولي (spline warping) لإنشاء سلاسل تشبه التقدم الزمني. ومع ذلك، في مهام مثل اكتشاف الأشياء البارزة في الفيديو، حيث تكون الإشارات البصرية والحركة حاسمة، فإن هذه التقنيات الأساسية لتحويل الصورة إلى الفيديو لا تنجح في إنتاج تدفقات ضوئية واقعية تعكس خصائص الحركة المستقلة لكل كائن. في هذه الدراسة، نظهر أن نماذج التوزيع من الصورة إلى الفيديو يمكنها إنشاء تحويلات واقعية للصور الثابتة مع فهم العلاقات السياقية بين مكونات الصورة. يسمح هذا القدرة للنموذج بإنتاج تدفقات ضوئية مقنعة، مع الحفاظ على سلامة المعنى وتعكس حركة العناصر المشهدية بشكل مستقل. عن طريق زيادة الصور الفردية بهذه الطريقة، ننشئ أزواج صورة-تدفق على نطاق واسع تساهم بشكل كبير في تعزيز تدريب النموذج. يحقق نهجنا أفضل الأداء على جميع قواعد البيانات المرجعية العامة، مما يتفوق على الأساليب الموجودة حالياً.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحويل الصور الثابتة باستخدام النماذج التوليدية للكشف عن الأشياء البارزة في الفيديو | مستندات | HyperAI