Command Palette
Search for a command to run...
Ming-UniVision: الفهم والتكوين المتكامل للصورة باستخدام مُفكّك رموز مستمر موحد

الملخص
تظل عملية تجزئة الصور (visual tokenization) تحديًا أساسيًا في تحقيق التوحيد بين الفهم البصري والتكوين ضمن النموذج التكراري (autoregressive paradigm). تُستخدم الطرق الحالية عادةً معالجات تجزئة (tokenizers) في فضاءات لاتينية منفصلة للتوافق مع الرموز (tokens) الناتجة عن النماذج اللغوية الكبيرة، حيث يمكن أن تؤدي أخطاء التكميم (quantization errors) إلى تقييد التعبير الدلالي وخفض قدرة الفهم البصري-اللغوي. ولحل هذه المشكلة، نقدّم "مينغ توك" (MingTok)، وهي عائلة جديدة من معالجات تجزئة الصور تستخدم فضاءً لاتينيًا مستمرًا، بهدف تحقيق توليد وفهم بصري موحّد ضمن النموذج التكراري. في حين أن المهام المتعلقة بالفهم تفضّل ميزات عالية الأبعاد تمييزية (discriminative)، فإن المهام المتعلقة بالتوليد تفضّل رموزًا منخفضة المستوى مكثفة. ولذلك، لموازنة هذه المتطلبات المتنافسة، تُطبّق "مينغ توك" بنية متسلسلة مكونة من ثلاث مراحل: الترميز المنخفض المستوى، والتوسع الدلالي، وإعادة بناء الصورة. وباستنادها إلى هذه البنية، تُقدّم "مينغ-يوني فيجن" (Ming-UniVision) إزالة الحاجة إلى تمثيلات بصرية مخصصة لكل مهمة، وتوحيد مهام البصر-اللغة المتنوعة ضمن نموذج تكراري واحد. وبصياغة كل من الفهم والتوليد كمهمة تنبؤ بالرمز التالي ضمن فضاء مستمر مشترك، تدعم بشكل سلس مهام متعددة الجولات داخل السياق (in-context)، مثل الفهم التكراري، والتوليد، والتحرير. من الناحية التجريبية، وجدنا أن استخدام تمثيل بصري مستمر موحد يُمكّن من تناول المتطلبات المتنافسة التي تفرضها مهام الفهم والتوليد على معالجات التجزئة، مما يؤدي إلى أداء متميز على مستوى الحد الأقصى في كلا المجالين. نأمل أن تُسهم نتائجنا في تعزيز تجزئة الصور الموحّدة في الفضاء المستمر. وتم إصدار رمز الاستدلال (inference code) وأوزان النموذج لخدمة المجتمع العلمي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.