HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodaler ArXiv-Datensatz Zum Wissenschaftlichen Verständnis

Discuss on Discord

Date

vor einem Jahr

Organization

Peking-Universität
Die Universität von Hongkong

Paper URL

arxiv.org

Multimodal ArXiv wurde 2024 von der Universität Hongkong und der Peking-Universität ins Leben gerufen. Das entsprechende Papier lautet:Multimodales ArXiv: Ein Datensatz zur Verbesserung des wissenschaftlichen Verständnisses großer Vision-Language-Modelle", das von ACL 2024 akzeptiert wurde.

Dieser Datensatz besteht aus ArXivCap und ArXivQA, um das wissenschaftliche Verständnis von LVLM zu verbessern.

ArXivCap ist ein Datensatz mit Graphunterschriften, der 6,4 Millionen Bilder und 3,9 Millionen Beschriftungen aus 572.000 ArXiv-Dokumenten aus verschiedenen wissenschaftlichen Bereichen enthält.

Auf der Grundlage von ArXivCap führte das Forschungsteam ArXivQA ein, einen von GPT-4V anhand von Eingabeaufforderungen generierten Frage-Antwort-Datensatz auf der Grundlage wissenschaftlicher Grafiken. ArXivQA verbessert die mathematischen Argumentationsfähigkeiten des Open-Source-LVLM erheblich und erreicht eine absolute Genauigkeitsverbesserung von 10,4% bei einem multimodalen mathematischen Argumentations-Benchmark.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp