HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

OmniInsert: إدراج الفيديو بدون قناع لأي مرجع عبر نماذج التحويل التبادلي للانتشار

OmniInsert: إدراج الفيديو بدون قناع لأي مرجع عبر نماذج التحويل التبادلي للانتشار

الملخص

تقدم التطورات الحديثة في إدراج الفيديو باستخدام النماذج الانتشارية نتائج مبهرة. ومع ذلك، تعتمد الطرق الحالية على إشارات تحكم معقدة، وتواجه صعوبات في الحفاظ على اتساق الموضوع، مما يحد من تطبيقاتها العملية. في هذا البحث، نركز على مهمة إدراج الفيديو دون استخدام قناع (Mask-free Video Insertion)، ونهدف إلى التغلب على ثلاث تحديات رئيسية: نقص البيانات، التوازن بين الموضوع والمشهد، وتماسك الإدراج. ولحل مشكلة نقص البيانات، نقترح خط أنابيب بيانات جديد يُسمى InsertPipe، الذي يُنشئ تلقائيًا بيانات متنوعة من أزواج متقاطعة. وباستناد إلى هذا الخط أنابيب البيانات، نطور إطارًا موحدًا جديدًا يُسمى OmniInsert، قادر على إدراج الفيديو دون قناع باستخدام مراجع موضوعية واحدة أو متعددة. وبشكل خاص، ولضمان التوازن بين الموضوع والمشهد، نُقدّم آلية بسيطة ولكن فعالة تُسمى "إدخال الميزات المحددة بالشرط" (Condition-Specific Feature Injection)، التي تُدخل بوضوح شروط متعددة المصدرين، ونُقدّم استراتيجية تدريب تدريجية جديدة تمكن النموذج من تحقيق توازن في إدخال الميزات من الموضوعات والفيديو المصدري. وفي الوقت نفسه، نصمم دالة خسارة موجهة نحو الموضوع (Subject-Focused Loss) لتحسين التفاصيل المرئية للموضوعات. ولتعزيز التمازج في الإدراج بشكل أكبر، نقترح منهجية تحسين التفضيلات المُدمجة (Insertive Preference Optimization)، التي تُحسّن النموذج من خلال محاكاة تفضيلات الإنسان، ونُدمج وحدة إعادة صياغة واعية بالسياق (Context-Aware Rephraser) أثناء عملية المراجعة، لدمج الموضوع بشكل سلس في المشاهد الأصلية. ولحل نقص وجود معيار معياري في هذا المجال، نُقدّم InsertBench، وهو معيار شامل يتكوّن من مشاهد متنوعة وموضوعات مختارة بدقة. وتشير النتائج المقدمة على InsertBench إلى أن OmniInsert يتفوق على أحدث الحلول التجارية المغلقة المصدر. وسيتم إصدار الشفرة المصدرية قريبًا.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
OmniInsert: إدراج الفيديو بدون قناع لأي مرجع عبر نماذج التحويل التبادلي للانتشار | الأوراق البحثية | HyperAI