HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Raisonnement Mathématique Multimodal InfiMM-WebMath-40B

L'ensemble de données InfiMM-WebMath-40B a été publié par une équipe de recherche de ByteDance et de l'Académie chinoise des sciences en 2024. L'article connexe est intitulé «InfiMM-WebMath-40B : Améliorer la préformation multimodale pour un raisonnement mathématique amélioré".

Cet ensemble de données est un grand ensemble de données multimodal open source conçu spécifiquement pour les tâches de raisonnement mathématique, contenant 2,4 000 pages Web, 8,5 000 URL d'images associées et 40 milliards de jetons, qui ont tous été soigneusement extraits et filtrés de la base de données CommonCrawl (2019-2023). La publication de cet ensemble de données fournit une ressource précieuse à la communauté open source pour faire progresser les capacités des modèles de langage multimodaux de grande taille (MLLM) dans le raisonnement mathématique.

Le processus de construction de l'ensemble de données comprend l'extraction de texte, le filtrage linguistique, le filtrage de contenu de haute qualité, la déduplication et l'extraction d'URL d'image. Grâce à ces étapes, la qualité et la pertinence de l’ensemble de données ont été assurées. En termes de formation du modèle, l’ensemble de données InfiMM-WebMath-40B est utilisé pour une pré-formation supplémentaire afin d’améliorer la capacité du modèle à acquérir des connaissances mathématiques dans un environnement multimodal. De plus, un réglage fin des instructions a été effectué pour améliorer encore les performances du modèle.

InfiMM-WebMath-40B.torrent
Seeding 1Downloading 0Completed 216Total Downloads 306
  • InfiMM-WebMath-40B/
    • README.md
      1.83 KB
    • README.txt
      3.67 KB
      • data/
        • InfiMM-WebMath-40B.zip
          73.61 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp