HyperAI

Ensemble De Données De Préférences De Raisonnement Multimodal MMPR

Date

il y a 5 mois

Taille

29.29 GB

Organisation

Laboratoire d'intelligence artificielle de Shanghai
Université Fudan

URL de publication

github.com

MMPR (Multimodal Preference Dataset) est un ensemble de données de préférences multimodales à grande échelle publié conjointement en 2024 par les équipes de recherche du Shanghai Artificial Intelligence Laboratory, de l'Université Fudan, de l'Université de Nanjing, de l'Université chinoise de Hong Kong, de l'Université Tsinghua et de SenseTime. Les résultats de l'article connexe sont «Améliorer la capacité de raisonnement des grands modèles linguistiques multimodaux via l'optimisation des préférences mixtesL'ensemble de données contient 750 000 échantillons sans réponses claires et correctes et 2,5 millions d'échantillons avec des réponses claires et correctes. Les échantillons couvrent plusieurs domaines tels que l'AQV, les sciences, le graphisme, les mathématiques, l'OCR et les documents afin de garantir la diversité. Lors de la construction de l'ensemble de données, les chercheurs ont veillé à éviter les réponses faussement positives et négatives en raison des limites des règles heuristiques, notamment dans les domaines généraux de l'AQV et des documents. L'ensemble de données est conçu pour améliorer les performances du modèle dans les tâches de raisonnement multimodal tout en évitant les effets négatifs potentiels pendant l'apprentissage.

Exemple de données du MMPR. Pour des instructions avec des réponses claires et correctes, l'équipe de recherche a proposé un processus basé sur l'exactitude qui échantillonne plusieurs solutions et traite celles avec des réponses correctes comme des réponses de choix et celles avec des réponses incorrectes comme des réponses de rejet. Pour les commandes qui n’ont pas de réponse claire et correcte, l’équipe de recherche a proposé d’utiliser DropoutNTP pour générer une réponse de rejet. Les différences entre les réponses de sélection et de rejet sont soulignées en italique. Les surlignages rouges indiquent les réponses incorrectes.

MMPR-OpenGVLab.torrent
Partage 1Téléchargement 1Terminés 46Téléchargements totaux 53
  • MMPR-OpenGVLab/
    • README.md
      2.12 KB
    • README.txt
      4.25 KB
      • data/
        • MMPR.zip
          14.63 GB
          • MMPR/
            • README.md
              14.63 GB
            • annotations.zip
              16.03 GB
            • images.zip
              29.29 GB
            • meta.json
              29.29 GB