HyperAI

Déploiement En Un Clic De Llama-3.2-11B

Llama-3.2-11B-Vision-Instruct : Assistant de chat d'images

1. Introduction au tutoriel

La collection de modèles de langage multimodaux de grande taille (LLM) Llama 3.2-Vision est un ensemble de modèles génératifs de raisonnement d'image pré-entraînés et réglés par des instructions développés par Meta en 2024, avec des tailles de 11B et 90B (entrée texte + image / sortie texte). Le modèle d'instruction Llama 3.2-Vision est optimisé pour la reconnaissance visuelle, le raisonnement d'image, le sous-titrage et la réponse aux questions générales sur les images. Ces modèles surpassent de nombreux modèles multimodaux open source et fermés disponibles sur des critères de référence courants du secteur. Langues prises en charge : pour les tâches contenant uniquement du texte, l'anglais, l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï sont officiellement pris en charge. Llama 3.2 a été formé sur une gamme de langues plus large que les 8 langues prises en charge.

Llama 3.2-Vision est destiné à un usage commercial et de recherche. Les instructions ajustent le modèle pour la reconnaissance visuelle, le raisonnement d'image, le sous-titrage et le chat d'image de type assistant, tandis que le modèle pré-entraîné peut être adapté à une variété de tâches de raisonnement d'image. De plus, comme Llama 3.2-Vision est capable de prendre des images et du texte en entrée, d'autres cas d'utilisation peuvent inclure :

  • Réponse visuelle aux questions (VQA) et raisonnement visuel : Imaginez une machine capable de regarder une image et de comprendre la question que vous posez à son sujet.
  • Document Visual Question Answering (DocVQA) : Imaginez un ordinateur capable de comprendre le texte et la mise en page d'un document (comme une carte ou un contrat), puis de répondre à des questions à ce sujet directement à partir de l'image.
  • Sous-titrage d'image : Le sous-titrage d'image comble le fossé entre la vision et le langage, en extrayant des détails, en comprenant la scène, puis en écrivant une phrase ou deux pour raconter l'histoire.
  • Récupération d'image-texte : La récupération d'image-texte est comme un entremetteur entre les images et leurs descriptions. Similaire à un moteur de recherche, mais il comprend les images aussi bien que le texte.
  • Base visuelle : La base visuelle consiste à relier ce que nous voyons à ce qui est dit. Il s’agit de comprendre comment le langage fait référence à des parties spécifiques d’une image, permettant aux modèles d’IA de localiser précisément des objets ou des zones en fonction de descriptions en langage naturel.

2. Étapes de l'opération

1. 启动容器后点击 API 地址即可进入 Web 界面
2. 进入网页后,即可与模型展开图像对话!
虽然官方语言中并没有中文,但仍可指定中文使模型输出为中文,例如 “请使用中文回答【问题】” 、 “请使用中文描述这张图”
3. 点击提交即可看到模型输出结果