التاريخ

منذ 8 أشهر

الحجم

465.62 MB

الوسوم

فهم الصور

فهم الفيديو

الترخيص

Apache 2.0

GitHub

magic-research/Sa2VA

رابط الورقة البحثية

2501.04001

1. مقدمة البرنامج التعليمي

تم إطلاق Sa2VA، الذي طُوّر بالتعاون بين فرق بحثية من جامعة كاليفورنيا في ميرسيد، وشركة ByteDance Seed، وجامعة ووهان، وجامعة بكين، في 7 يناير 2025. يُعدّ Sa2VA أول نموذج موحد للفهم الإدراكي العميق للصور والفيديوهات. على عكس نماذج اللغة متعددة الوسائط واسعة النطاق الحالية، والتي تقتصر عادةً على وسائط ومهام محددة، يدعم Sa2VA نطاقًا واسعًا من مهام الصور والفيديوهات، بما في ذلك التجزئة الجبرية والحوار، ويتطلب الحد الأدنى من الضبط الدقيق بتعليمات بسيطة. فيما يلي نتائج الأبحاث ذات الصلة: Sa2VA: دمج SAM2 مع LLaVA لتحقيق فهم أساسي وعميق للصور ومقاطع الفيديو .

يستخدم هذا البرنامج التعليمي الموارد لبطاقة واحدة A6000.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

يوفر هذا البرنامج التعليمي اختبارين للوحدة: وحدة صورة واحدة ووحدة فيديو.

يجب ألا يتجاوز حجم الصورة التي تم تحميلها 10 ميجا بايت، ويجب ألا يتجاوز طول الفيديو الذي تم تحميله دقيقة واحدة، ويجب ألا يتجاوز حجم الفيديو 50 ميجا بايت، وإلا فقد يتسبب ذلك في تشغيل النموذج ببطء أو الإبلاغ عن أخطاء.

وصف المعلمة الهامة:

صورة واحدة

فيديو

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

الخامس. معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{pixel_sail,
  title={Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos},
  author={Zhang, Tao and Li, Xiangtai and Huang, Zilong  and Li, Yanwei and Lei, Weixian and Deng, Xueqing and Chen, Shihao and Ji, Shunping and  and Feng, Jiashi},
  journal={arXiv},
  year={2025}
}

@article{sa2va,
  title={Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos},
  author={Yuan, Haobo and Li, Xiangtai and Zhang, Tao and Huang, Zilong and Xu, Shilin and Ji, Shunping and Tong, Yunhai and Qi, Lu and Feng, Jiashi and Yang, Ming-Hsuan},
  journal={arXiv},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

منذ 2 أشهر

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 8 أشهر

الحجم

465.62 MB

الوسوم

فهم الصور

فهم الفيديو

الترخيص

Apache 2.0

GitHub

magic-research/Sa2VA

رابط الورقة البحثية

2501.04001

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي الموارد لبطاقة واحدة A6000.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

يوفر هذا البرنامج التعليمي اختبارين للوحدة: وحدة صورة واحدة ووحدة فيديو.

يجب ألا يتجاوز حجم الصورة التي تم تحميلها 10 ميجا بايت، ويجب ألا يتجاوز طول الفيديو الذي تم تحميله دقيقة واحدة، ويجب ألا يتجاوز حجم الفيديو 50 ميجا بايت، وإلا فقد يتسبب ذلك في تشغيل النموذج ببطء أو الإبلاغ عن أخطاء.

وصف المعلمة الهامة:

صورة واحدة

فيديو

4. المناقشة

الخامس. معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{pixel_sail,
  title={Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos},
  author={Zhang, Tao and Li, Xiangtai and Huang, Zilong  and Li, Yanwei and Lei, Weixian and Deng, Xueqing and Chen, Shihao and Ji, Shunping and  and Feng, Jiashi},
  journal={arXiv},
  year={2025}
}

@article{sa2va,
  title={Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos},
  author={Yuan, Haobo and Li, Xiangtai and Zhang, Tao and Huang, Zilong and Xu, Shilin and Ji, Shunping and Tong, Yunhai and Qi, Lu and Feng, Jiashi and Yang, Ming-Hsuan},
  journal={arXiv},
  year={2025}
}

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

منذ 2 أشهر

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

Sa2VA: نحو فهم إدراكي مكثف للصور ومقاطع الفيديو

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

الخامس. معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Sa2VA: نحو فهم إدراكي مكثف للصور ومقاطع الفيديو

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

الخامس. معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Sa2VA: نحو فهم إدراكي مكثف للصور ومقاطع الفيديو

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

الخامس. معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX