HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodaler ArXiv-Datensatz Zum Wissenschaftlichen Verständnis

Datum

vor einem Jahr

Organisation

Die Universität von Hongkong

Veröffentlichungs-URL

mm-arxiv.github.io

Paper-URL

arxiv.org

Treten Sie der Discord-Community bei

Multimodal ArXiv wurde 2024 von der Universität Hongkong und der Peking-Universität ins Leben gerufen. Das entsprechende Papier lautet:Multimodales ArXiv: Ein Datensatz zur Verbesserung des wissenschaftlichen Verständnisses großer Vision-Language-Modelle", das von ACL 2024 akzeptiert wurde.

Dieser Datensatz besteht aus ArXivCap und ArXivQA, um das wissenschaftliche Verständnis von LVLM zu verbessern.

ArXivCap ist ein Datensatz mit Graphunterschriften, der 6,4 Millionen Bilder und 3,9 Millionen Beschriftungen aus 572.000 ArXiv-Dokumenten aus verschiedenen wissenschaftlichen Bereichen enthält.

Auf der Grundlage von ArXivCap führte das Forschungsteam ArXivQA ein, einen von GPT-4V anhand von Eingabeaufforderungen generierten Frage-Antwort-Datensatz auf der Grundlage wissenschaftlicher Grafiken. ArXivQA verbessert die mathematischen Argumentationsfähigkeiten des Open-Source-LVLM erheblich und erreicht eine absolute Genauigkeitsverbesserung von 10,4% bei einem multimodalen mathematischen Argumentations-Benchmark.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multimodaler ArXiv-Datensatz Zum Wissenschaftlichen Verständnis | Datensätze | HyperAI