HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 23 أيام

DreamOmni2: التحرير والتكوين القائم على التعليمات متعدد الوسائط

DreamOmni2: التحرير والتكوين القائم على التعليمات متعدد الوسائط

الملخص

أحرزت التطورات الحديثة في تحرير الصور القائمة على التعليمات وإنشاء الصور القائمة على الموضوع تقدماً ملحوظاً، إلا أن كلا المهمتين ما زالا يواجهان قيوداً في تلبية احتياجات المستخدمين العملية. فتعتمد تحرير الصور القائمة على التعليمات بشكل كامل على التعليمات النصية، التي غالبًا ما تفشل في نقل التفاصيل الدقيقة للتحرير، مما يستدعي الحاجة إلى استخدام صور مرجعية. من ناحية أخرى، يقتصر إنشاء الصور القائمة على الموضوع على دمج كائنات ملموسة أو أشخاص، مما يؤدي إلى إغفال المفاهيم الأوسع والأكثر تجريداً. وللتصدي لهذه التحديات، نقترح مهامتين جديدتين: تحرير وتمثيل متعدد الوسائط القائم على التعليمات. وتُدعم هاتان المهمتان التعليمات النصية والمرئية مع توسيع نطاقها ليشمل المفاهيم الملموسة وال مجردة، ما يعزز بشكل كبير من تطبيقاتهما العملية. ونقدّم نموذج "DreamOmni2"، الذي يعالج تحديين رئيسيين: إنشاء البيانات وتصميم إطار النموذج. يتكون مسار توليد البيانات لدينا من ثلاث خطوات: (1) استخدام طريقة خلط الميزات لإنشاء بيانات استخلاص تشمل المفاهيم المجردة والملموسة، (2) إنتاج بيانات تدريب للتحرير القائم على التعليمات متعدد الوسائط باستخدام نماذج التحرير والاستخلاص، و(3) تطبيق نموذج الاستخلاص بشكل إضافي لإنشاء بيانات تدريب للتحرير القائم على التعليمات متعدد الوسائط. أما في إطار النموذج، فقد اقترحنا خطة لترميز الفهرس وتحديث ترميز الموقع لمعالجة المدخلات المتعددة الصور، مما يساعد النموذج على التمييز بين الصور وتجنب الالتباس البكسي (البكسل). بالإضافة إلى ذلك، قمنا بدمج التدريب المشترك بين نموذج الفهم البصري واللغوي (VLM) ونموذجنا للإنشاء/التحرير، لتحسين معالجة التعليمات المعقدة. علاوة على ذلك، قدمنا معايير تقييم شاملة لهذه المهمتين الجديدتين لدفع عجلة تطويرهما. أظهرت التجارب نتائج مبهرة لنموذج DreamOmni2. وستُطرح النماذج والكود المصدر في المستقبل القريب.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DreamOmni2: التحرير والتكوين القائم على التعليمات متعدد الوسائط | الأوراق البحثية | HyperAI