Command Palette
Search for a command to run...
لونغ-فيتا: عرض توضيحي لفهم الوسائط المتعددة باستخدام ملايين الرموز
التاريخ
الحجم
1.06 GB
الوسوم
GitHub
رابط الورقة البحثية
1. مقدمة البرنامج التعليمي

يُعدّ Long-VITA إنجازًا بحثيًا لنموذج متعدد الوسائط واسع النطاق ذي سياق طويل، وقد أُطلق في فبراير 2025 من قِبل مختبر Tencent YouTu وجامعة نانجينغ وجامعة شيامن. يحافظ هذا النموذج على دقة فائقة مع السياقات القصيرة، بينما يمدد طول السياق إلى مليون رمز، مما يُتيح معالجة فعّالة للمدخلات متعددة الوسائط مثل النصوص والصور. الورقة البحثية ذات الصلة بعنوان "...".Long-VITA: توسيع نطاق النماذج متعددة الوسائط الكبيرة إلى مليون رمز مميز بدقة رائدة في السياق القصير".
يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 4090 واحدة ويقوم بتشغيل نموذج Long-VITA-16K_HF.
2. أمثلة على التأثيرات
محادثة نصية

فهم الصورة

فهم الفيديو

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة Gradio التفاعلية

2. بمجرد دخولك إلى صفحة الويب، يمكنك استخدام النموذج
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
احتياطات
- بالنسبة لمدخلات السياق الطويلة، تأكد من وجود ذاكرة فيديو كافية؛ ويوصى بتحميل النصوص الكبيرة جدًا على دفعات.
- يوصى بأن يكون طول ضلع الصورة المدخلة ≤ 2048 بكسل لتقليل زمن الاستجابة للاستدلال.
- إذا فشلت عملية الاستدلال، يرجى التحقق من تنسيق الإدخال أو تقصير طول الإدخال والمحاولة مرة أخرى.

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@misc{shen2025longvitascalinglargemultimodal,
title={Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy},
author={Yunhang Shen and Chaoyou Fu and Shaoqi Dong and Xiong Wang and Yi-Fan Zhang and Peixian Chen and Mengdan Zhang and Haoyu Cao and Ke Li and Xiawu Zheng and Yan Zhang and Yiyi Zhou and Ran He and Caifeng Shan and Rongrong Ji and Xing Sun},
year={2025},
eprint={2502.05177},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.05177},
}بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.