Command Palette
Search for a command to run...

الملخص
أحرزت التطورات الحديثة في تحرير الصور القائمة على التعليمات وإنشاء الصور القائمة على الموضوع تقدماً ملحوظاً، إلا أن كلا المهمتين ما زالا يواجهان قيوداً في تلبية احتياجات المستخدمين العملية. فتعتمد تحرير الصور القائمة على التعليمات بشكل كامل على التعليمات النصية، التي غالبًا ما تفشل في نقل التفاصيل الدقيقة للتحرير، مما يستدعي الحاجة إلى استخدام صور مرجعية. من ناحية أخرى، يقتصر إنشاء الصور القائمة على الموضوع على دمج كائنات ملموسة أو أشخاص، مما يؤدي إلى إغفال المفاهيم الأوسع والأكثر تجريداً. وللتصدي لهذه التحديات، نقترح مهامتين جديدتين: تحرير وتمثيل متعدد الوسائط القائم على التعليمات. وتُدعم هاتان المهمتان التعليمات النصية والمرئية مع توسيع نطاقها ليشمل المفاهيم الملموسة وال مجردة، ما يعزز بشكل كبير من تطبيقاتهما العملية. ونقدّم نموذج "DreamOmni2"، الذي يعالج تحديين رئيسيين: إنشاء البيانات وتصميم إطار النموذج. يتكون مسار توليد البيانات لدينا من ثلاث خطوات: (1) استخدام طريقة خلط الميزات لإنشاء بيانات استخلاص تشمل المفاهيم المجردة والملموسة، (2) إنتاج بيانات تدريب للتحرير القائم على التعليمات متعدد الوسائط باستخدام نماذج التحرير والاستخلاص، و(3) تطبيق نموذج الاستخلاص بشكل إضافي لإنشاء بيانات تدريب للتحرير القائم على التعليمات متعدد الوسائط. أما في إطار النموذج، فقد اقترحنا خطة لترميز الفهرس وتحديث ترميز الموقع لمعالجة المدخلات المتعددة الصور، مما يساعد النموذج على التمييز بين الصور وتجنب الالتباس البكسي (البكسل). بالإضافة إلى ذلك، قمنا بدمج التدريب المشترك بين نموذج الفهم البصري واللغوي (VLM) ونموذجنا للإنشاء/التحرير، لتحسين معالجة التعليمات المعقدة. علاوة على ذلك، قدمنا معايير تقييم شاملة لهذه المهمتين الجديدتين لدفع عجلة تطويرهما. أظهرت التجارب نتائج مبهرة لنموذج DreamOmni2. وستُطرح النماذج والكود المصدر في المستقبل القريب.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.