HyperAI

Ensemble De Données De Compréhension De Dialogue Multi-images Multi-tours Très Long MMDU

Date

il y a un an

Taille

719.91 MB

Organisation

CUHK
Fils Moore
Laboratoire d'intelligence artificielle de Shanghai

URL de publication

github.com

Licence

CC BY-NC-SA 3.0

特色图像

* Cet ensemble de données est disponible en ligne.Cliquez ici pour sauter.

MMDU (Multi-Turn Multi-Image Dialog Understanding) est un ensemble de données de compréhension de dialogue multi-images multi-tours ultra-long lancé conjointement par l'Université de Wuhan, le Laboratoire d'intelligence artificielle de Shanghai, l'Université chinoise de Hong Kong et Moore Threads en 2024. L'équipe de recherche a publié l'articleMMDU : un ensemble de données de référence et de réglage des instructions pour les LVLM"Un nouveau benchmark d'évaluation multi-images multi-tours MMDU et un ensemble de données de réglage fin d'instructions à grande échelle MMDU-45k ont été proposés afin d'évaluer et d'améliorer les performances des LVLM dans les conversations multi-tours et multi-images.

Le benchmark se compose de 110 dialogues multi-images et multi-tours de haute qualité avec plus de 1 600 questions, chacune avec une réponse longue détaillée. Les tests précédents impliquent généralement une seule image ou un petit nombre d'images, avec moins de séries de questions et de réponses courtes. Cependant, MMDU augmente considérablement le nombre d'images, les tours de questions-réponses et la longueur du contexte des questions et des réponses. Les problèmes dans MMUD impliquent 2 à 20 images, avec une longueur moyenne de balises d'image et de texte de 8,2 000 balises et une longueur maximale de balises d'image et de texte de 18 000 balises, ce qui pose des défis importants aux modèles multimodaux à grande échelle existants.

Dans MMDU-45k, l'équipe de recherche a construit un total de 45 000 dialogues de données de réglage d'instructions. Chaque donnée de l'ensemble de données MMDU-45k a un contexte très long, avec une longueur moyenne de jeton image-texte de 5 k et une longueur maximale de jeton image-texte de 17 k. Chaque conversation contient en moyenne 9 tours de questions-réponses et un maximum de 27 tours. De plus, chaque élément de données contient le contenu de 2 à 5 images. L'ensemble de données est construit dans un format soigneusement conçu avec une excellente évolutivité et peut être combiné pour générer des conversations multi-graphiques multi-tours plus nombreuses et plus longues. La longueur du graphique et le nombre de tours dans MMDU-45k dépassent considérablement tous les ensembles de données de réglage d'instructions existants. Cette amélioration améliore considérablement la capacité du modèle à reconnaître et à comprendre plusieurs images, ainsi que sa capacité à gérer de longues conversations contextuelles.

Le benchmark MMDU présente les avantages suivants :

(1) Dialogue multi-tours et entrée multi-images :Le benchmark MMDU comprend jusqu'à 20 images et 27 séries de dialogues de questions-réponses, surpassant plusieurs benchmarks précédents et reproduisant de manière réaliste des scénarios d'interaction de chat réels.

(2) Contexte long :Le benchmark MMDU évalue la capacité des LVLM à traiter et à comprendre des informations contextuelles avec de longs historiques de contexte jusqu'à 18 000 jetons texte + image.

(3) Évaluation ouverte :Le MMDU rompt avec les questions fermées et les résultats courts (par exemple, les questions à choix multiples ou les réponses courtes) sur lesquels s'appuient les repères traditionnels et adopte une approche d'évaluation plus réaliste et plus raffinée. Il évalue les performances de LVLM via des sorties multi-tours de forme libre, en mettant l'accent sur l'évolutivité et l'interprétabilité des résultats de l'évaluation.

Au cours du processus de construction du MMDU, les chercheurs ont sélectionné des images et des informations textuelles très pertinentes à partir de la source ouverte Wikipédia et, avec l'aide du modèle GPT-4o, des annotateurs humains ont construit des paires de questions et de réponses.

MMDU.torrent
Partage 2Téléchargement 0Terminés 114Téléchargements totaux 141
  • MMDU/
    • README.md
      3.44 KB
    • README.txt
      6.88 KB
      • data/
        • mmdu.zip
          719.91 MB