HyperAI

Multimodal ArXiv wurde 2024 von der Universität Hongkong und der Peking-Universität ins Leben gerufen. Das entsprechende Papier lautet:Multimodales ArXiv: Ein Datensatz zur Verbesserung des wissenschaftlichen Verständnisses großer Vision-Language-Modelle", das von ACL 2024 akzeptiert wurde.

Dieser Datensatz besteht aus ArXivCap und ArXivQA, um das wissenschaftliche Verständnis von LVLM zu verbessern.

ArXivCap ist ein Datensatz mit Graphunterschriften, der 6,4 Millionen Bilder und 3,9 Millionen Beschriftungen aus 572.000 ArXiv-Dokumenten aus verschiedenen wissenschaftlichen Bereichen enthält.

Auf der Grundlage von ArXivCap führte das Forschungsteam ArXivQA ein, einen von GPT-4V anhand von Eingabeaufforderungen generierten Frage-Antwort-Datensatz auf der Grundlage wissenschaftlicher Grafiken. ArXivQA verbessert die mathematischen Argumentationsfähigkeiten des Open-Source-LVLM erheblich und erreicht eine absolute Genauigkeitsverbesserung von 10,4% bei einem multimodalen mathematischen Argumentations-Benchmark.

Multimodaler ArXiv-Datensatz Zum Wissenschaftlichen Verständnis