البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

نموذج اللغة الكبير (LLM) والنموذج المتعدد الوسائط الكبير (LMM) هما اتجاهان أساسيان للتطوير في مجال الذكاء الاصطناعي. في حين يركز برنامج LLM على معالجة البيانات النصية وتوليدها، فإن برنامج LMM يذهب إلى خطوة أبعد ويهدف إلى دمج وفهم أنواع متعددة من البيانات بما في ذلك النصوص والصور ومقاطع الفيديو. اليوم، أصبحت LLM ناضجة نسبيًا، وأصبحت ChatGPT والخوارزميات الأخرى بالفعل بارعة في فهم النصوص. يبدأ الناس في تحويل انتباههم إلى فهم البيانات المتعددة الوسائط، مما يمكّن النماذج من "قراءة الصور ومشاهدة مقاطع الفيديو".

في الآونة الأخيرة، قام باحثون من شركة ByteDance وجامعة نانيانغ التكنولوجية والجامعة الصينية في هونج كونج وجامعة هونج كونج للعلوم والتكنولوجيا بفتح المصدر المشترك لنموذج LLaVA-OneVision المتعدد الوسائط الكبير، والذي أظهر أداءً ممتازًا في مهام الصورة الفردية والصور المتعددة والفيديو. يُظهر إطار عمل التقييم LMMs-Eval المصمم للنماذج الكبيرة متعددة الوسائط أن LLaVA-OneVision-72B يتفوق على GPT-4V وGPT-4o في معظم المعايير المرجعية، كما هو موضح في الشكل التالي:

أداء LLaVA-OneVision في معايير الصور المتعددة

برنامج HyperAI Hyperneuron التعليمي متاح الآن"عرض توضيحي لنموذج الرؤية الشاملة متعدد الوسائط LLaVA-OneVision"يمكن للمستخدمين التعامل بسهولة مع مجموعة متنوعة من المهام المرئية عن طريق الاستنساخ والبدء بنقرة واحدة. سواء كان الأمر يتعلق بتحليل الصور الثابتة أو تحليل مقاطع الفيديو الديناميكية، فإنه يمكن أن يوفر مخرجات عالية الجودة.

عنوان البرنامج التعليمي:

https://go.hyper.ai/PYD2v

تشغيل تجريبي

1. قم بتسجيل الدخول إلى hyper.ai، وفي صفحة البرنامج التعليمي، حدد LLaVA-OneVision Multimodal Universal Vision Model Demo، ثم انقر فوق تشغيل هذا البرنامج التعليمي عبر الإنترنت.

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. انقر فوق "التالي: حدد معدل التجزئة" في الزاوية اليمنى السفلية.

4. بعد الانتقال إلى الصفحة التالية، حدد "NVIDIA RTX A6000" وصورة "PyTorch"، ثم انقر فوق "التالي: المراجعة".يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_QZy7

5. بعد التأكيد، انقر فوق "متابعة" وانتظر حتى يتم تخصيص الموارد. ستستغرق عملية الاستنساخ الأولى حوالي 3 دقائق. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي.يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.نظرًا لأن النموذج كبير جدًا، فبعد أن يُظهر الحاوية أنه قيد التشغيل، يتعين عليك الانتظار لمدة دقيقة تقريبًا قبل فتح عنوان API، وإلا فسيتم عرض BadGateway.

عرض التأثير

1. بعد فتح واجهة العرض التوضيحي، دعنا أولاً نختبر قدرتها على فهم الصور. قم بتحميل 3 صور لمشاعر مختلفة في منطقة الإطار الأحمر وأدخل سؤالنا "أي صورة تعبر عن مشاعر الخوف؟" يمكنك أن ترى أنها تجيب على سؤالنا بدقة وتقدم وصفًا للصورة (الصورة الأولى، والتي تظهر امرأة تضع يديها على رأسها وتبدو عليها علامات الصدمة أو الخوف، تعبر عن عاطفة الخوف).

الصورة 1 خائفة؛ الصورة 2 سعيدة؛ الصورة رقم 3 حزينة

2. كما أن لديها قدرات ممتازة لفهم الفيديو. قم بتحميل مجموعة فيديو لأبرز أحداث مسابقة الجري الأولمبية واسأل "ما هو موضوع هذا الفيديو؟" يمكنك أن ترى أنه يمكنه الإجابة بدقة على أحداث المسابقة ووصف مشاهد الفيديو والتفاصيل، مثل لون بشرة الرياضيين، وعواطفهم، وشعارات الرعاة حول الملعب.

ترجمة الإجابة:

ويبدو أن الفيديو عبارة عن مقطع من أحداث ألعاب القوى، وخاصة سباق الـ100 متر. ويظهر في الصورة رياضيين على منصات البداية يستعدون للمنافسة، ويرتدي أحد الرياضيين زيًا أصفر وأخضر، مما يشير إلى أنه قد يمثل جامايكا، حيث أن هذه هي ألوان العلم الجامايكي. يلتقط الفيديو شدة الرياضيين وتركيزهم أثناء استعدادهم للبدء، ودفعهم من نقطة البداية، ثم ركضهم السريع على المضمار. يرتدي الرياضيون الزي الرسمي الذي يحدد منتخباتهم الوطنية أو الجهات الراعية لهم، ويمكن رؤية شعارات العديد من الجهات الراعية، مثل تويوتا وتي دي كيه، في جميع أنحاء الملعب. ويتضمن الفيديو أيضًا لقطات مقربة لوجوه الرياضيين، تُظهر تركيزهم وتصميمهم. ويظهر المشهد الأخير الرياضيين وهم يركضون بسرعة، حيث يتقدم أحد الرياضيين على الباقين، مما يوحي بسباق تنافسي جارٍ.

لقد قمنا بتأسيس "مجموعة تبادل الدروس حول الانتشار المستقر". نرحب بالأصدقاء للانضمام إلى المجموعة لمناقشة القضايا الفنية المختلفة ومشاركة نتائج التطبيق ~

قم بمسح رمز الاستجابة السريعة أدناه لإضافة HyperaiXingXing على WeChat (معرف WeChat: Hyperai01)، ولاحظ "SD Tutorial Exchange Group" للانضمام إلى الدردشة الجماعية.

HyperAI

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

منذ 2 أعوام

عنوان البرنامج التعليمي:

https://go.hyper.ai/PYD2v

تشغيل تجريبي

3. انقر فوق "التالي: حدد معدل التجزئة" في الزاوية اليمنى السفلية.

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_QZy7

عرض التأثير

ترجمة الإجابة:

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

منذ 2 أعوام

عنوان البرنامج التعليمي:

https://go.hyper.ai/PYD2v

تشغيل تجريبي

3. انقر فوق "التالي: حدد معدل التجزئة" في الزاوية اليمنى السفلية.

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_QZy7

عرض التأثير

ترجمة الإجابة:

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

Command Palette

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

Command Palette

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

Command Palette

البرنامج التعليمي عبر الإنترنت | هزيمة GPT-4V؟ تم إطلاق الطراز LLaVA-OneVision القوي للغاية والمفتوح المصدر والمتعدد الوسائط رسميًا!

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

أصدرت MIT/IBM مجموعة بيانات ChartNet، وهي أكبر مجموعة بيانات للرسوم البيانية الاصطناعية حتى الآن، حيث أنتجت 1.5 مليون عينة متنوعة من الرسوم البيانية.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة