الملخص

أحرزت التطورات الحديثة في تحرير الصور القائمة على التعليمات وإنشاء الصور القائمة على الموضوع تقدماً ملحوظاً، إلا أن كلا المهمتين ما زالا يواجهان قيوداً في تلبية احتياجات المستخدمين العملية. فتعتمد تحرير الصور القائمة على التعليمات بشكل كامل على التعليمات النصية، التي غالبًا ما تفشل في نقل التفاصيل الدقيقة للتحرير، مما يستدعي الحاجة إلى استخدام صور مرجعية. من ناحية أخرى، يقتصر إنشاء الصور القائمة على الموضوع على دمج كائنات ملموسة أو أشخاص، مما يؤدي إلى إغفال المفاهيم الأوسع والأكثر تجريداً. وللتصدي لهذه التحديات، نقترح مهامتين جديدتين: تحرير وتمثيل متعدد الوسائط القائم على التعليمات. وتُدعم هاتان المهمتان التعليمات النصية والمرئية مع توسيع نطاقها ليشمل المفاهيم الملموسة وال مجردة، ما يعزز بشكل كبير من تطبيقاتهما العملية. ونقدّم نموذج "DreamOmni2"، الذي يعالج تحديين رئيسيين: إنشاء البيانات وتصميم إطار النموذج. يتكون مسار توليد البيانات لدينا من ثلاث خطوات: (1) استخدام طريقة خلط الميزات لإنشاء بيانات استخلاص تشمل المفاهيم المجردة والملموسة، (2) إنتاج بيانات تدريب للتحرير القائم على التعليمات متعدد الوسائط باستخدام نماذج التحرير والاستخلاص، و(3) تطبيق نموذج الاستخلاص بشكل إضافي لإنشاء بيانات تدريب للتحرير القائم على التعليمات متعدد الوسائط. أما في إطار النموذج، فقد اقترحنا خطة لترميز الفهرس وتحديث ترميز الموقع لمعالجة المدخلات المتعددة الصور، مما يساعد النموذج على التمييز بين الصور وتجنب الالتباس البكسي (البكسل). بالإضافة إلى ذلك، قمنا بدمج التدريب المشترك بين نموذج الفهم البصري واللغوي (VLM) ونموذجنا للإنشاء/التحرير، لتحسين معالجة التعليمات المعقدة. علاوة على ذلك، قدمنا معايير تقييم شاملة لهذه المهمتين الجديدتين لدفع عجلة تطويرهما. أظهرت التجارب نتائج مبهرة لنموذج DreamOmni2. وستُطرح النماذج والكود المصدر في المستقبل القريب.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

DreamOmni2: التحرير والتكوين القائم على التعليمات متعدد الوسائط

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DreamOmni2: التحرير والتكوين القائم على التعليمات متعدد الوسائط

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DreamOmni2: التحرير والتكوين القائم على التعليمات متعدد الوسائط

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang