أوريكس مللم: فهم مكاني زمني حسب الطلب بدقة غير محددة

تُقدَّم البيانات البصرية بأشكال متنوعة، تتراوح من الرموز الصغيرة التي تتكوّن من بضعة بكسلات إلى مقاطع فيديو طويلة تمتد لساعات. تُعد النماذج اللغوية الكبيرة متعددة الوسائط الحالية عادةً هذه المدخلات البصرية المتنوعة إلى دقة ثابتة لمشغلات البصر، وتُنتج عدداً مماثلاً من الرموز (tokens) للنماذج اللغوية الكبيرة. يُعد هذا النهج غير مثالي للفهم متعدد الوسائط، وغير فعّال عند معالجة المدخلات التي تحتوي على محتويات بصرية قصيرة وطويلة في آنٍ واحد. ولحل هذه المشكلة، نُقدِّم "أوريكس" (Oryx)، وهي معمارية موحدة متعددة الوسائط لفهم الفضاء والزمن في الصور والفيديوهات والمشاهد ثلاثية الأبعاد متعددة الزوايا. يقدِّم أوريكس حلاً حسب الطلب لمعالجة مدخلات بصرية ذات أحجام مكانيّة وطول زمنيّ متغير بشكل سلس وفعّال من خلال Innovations رئيسية: 1) نموذج مُدرَّب مسبقًا يُسمّى "أوريكس فيت" (OryxViT) قادر على تحويل الصور بأي دقة إلى تمثيلات بصرية متوافقة مع النماذج اللغوية الكبيرة؛ 2) وحدة ضغط ديناميكية تدعم ضغط الرموز البصرية بنسبة من 1x إلى 16x حسب الطلب. تُمكّن هذه الخصائص التصميمية أوريكس من التكيّف مع سياقات بصرية طويلة جدًا، مثل الفيديوهات، باستخدام دقة منخفضة وضغط عالٍ، مع الحفاظ على دقة عالية في التعرف على المهام مثل فهم المستندات باستخدام الدقة الأصلية دون ضغط. وبالإضافة إلى التحسينات المعمارية، فإن تحسين جمع البيانات وتدريب مخصص على استرجاع السياقات الطويلة والبيانات المُدركة للمساحة يُمكّن أوريكس من تحقيق قدرات قوية في فهم الصور والفيديوهات والوسائط الثلاثية الأبعاد في آنٍ واحد. تم إتاحة عملنا مفتوح المصدر عبر الرابط: https://github.com/Oryx-mllm/Oryx.