HyperAI

نشر Llama-3.2-11B بنقرة واحدة

Llama-3.2-11B-Vision-Instruct: مساعد دردشة الصور

1. مقدمة البرنامج التعليمي

مجموعة نموذج اللغة الكبيرة متعدد الوسائط (LLM) Llama 3.2-Vision عبارة عن مجموعة من نماذج توليد التفكير الصوري المدربة مسبقًا والموجهة للتعليمات والتي طورتها Meta في عام 2024، بأحجام 11B و90B (نص + إدخال صورة / إخراج نص). تم تحسين نموذج Llama 3.2-Vision الموجه للتعليمات للتعرف البصري، والتفكير في الصور، والتعليقات التوضيحية، والإجابة على الأسئلة العامة حول الصور. تتفوق هذه النماذج على العديد من النماذج متعددة الوسائط المفتوحة المصدر والمغلقة المتاحة على معايير الصناعة الشائعة. اللغات المدعومة: بالنسبة لمهام النص العادي، يتم دعم اللغات الإنجليزية والألمانية والفرنسية والإيطالية والبرتغالية والهندية والإسبانية والتايلاندية رسميًا. تم تدريب Llama 3.2 على نطاق أوسع من اللغات وليس فقط اللغات الثمانية المدعومة.

تم تصميم Llama 3.2-Vision للاستخدام التجاري والبحثي. تعمل التعليمات على ضبط النموذج للتعرف البصري، والتفكير في الصور، والتعليقات التوضيحية، والدردشة بالصور مثل المساعد، بينما يمكن تكييف النموذج المدرب مسبقًا مع مجموعة متنوعة من مهام التفكير في الصور. بالإضافة إلى ذلك، نظرًا لأن Llama 3.2-Vision قادر على التقاط الصور والنصوص كمدخلات، فقد تتضمن حالات الاستخدام الأخرى ما يلي:

  • الإجابة على الأسئلة البصرية (VQA) والتفكير البصري: تخيل وجود آلة يمكنها النظر إلى صورة وفهم السؤال الذي تطرحه عنها.
  • الإجابة على الأسئلة المرئية حول المستندات (DocVQA): تخيل أن الكمبيوتر قادر على فهم النص وتخطيط مستند (مثل خريطة أو عقد)، ثم الإجابة على الأسئلة المتعلقة به مباشرة من الصورة.
  • إضافة تعليقات على الصور: تعمل إضافة تعليقات على الصور على سد الفجوة بين الرؤية واللغة، واستخراج التفاصيل، وفهم المشهد، ثم كتابة جملة أو جملتين لسرد القصة.
  • استرجاع الصورة والنص: يعد استرجاع الصورة والنص بمثابة وسيط بين الصور وأوصافها. مشابه لمحرك البحث، لكنه يفهم الصور وكذلك النص.
  • الأساس البصري: الأساس البصري هو مثل ربط ما نراه بما يقال. يتعلق الأمر بفهم كيفية إشارة اللغة إلى أجزاء معينة من الصورة، مما يسمح لنماذج الذكاء الاصطناعي بتحديد مواقع الأشياء أو المناطق بدقة استنادًا إلى أوصاف اللغة الطبيعية.

2. خطوات التشغيل

1. 启动容器后点击 API 地址即可进入 Web 界面
2. 进入网页后,即可与模型展开图像对话!
虽然官方语言中并没有中文,但仍可指定中文使模型输出为中文,例如 “请使用中文回答【问题】” 、 “请使用中文描述这张图”
3. 点击提交即可看到模型输出结果