HyperAIHyperAI

Command Palette

Search for a command to run...

VRC-Bench-Benchmark-Datensatz Für Visuelles Denken

Datum

vor 9 Monaten

Größe

465.89 MB

Organisation

Australian National University
Universität Linköping
Mohamed bin Zayed University of AI
Universität von Zentralflorida

Paper-URL

arxiv.org

VRC-Bench ist der erste Benchmark, der speziell für multimodale Schritt-für-Schritt-Argumentationsaufgaben entwickelt wurde. Ziel ist eine umfassende Bewertung der Leistung von Modellen in komplexen Denkszenarien. Es wurde 2025 von der Mohamed bin Zayed University of Artificial Intelligence, der University of Central Florida, der Universität Linköping und der Australian National University veröffentlicht. Die entsprechenden Ergebnisse der Studie sind „LlamaV-o1: Schrittweises visuelles Denken in LLMs neu denken". Im Gegensatz zu herkömmlichen Benchmarks, die sich nur auf die Genauigkeit des Endergebnisses konzentrieren, konzentriert sich VRC-Bench auf die Bewertung der Qualität jedes einzelnen Denkschritts und bietet eine detailliertere Bewertung der Modellfähigkeiten.

Der Datensatz deckt Herausforderungen in acht verschiedenen Bereichen ab, darunter visuelles Denken, mathematisches und logisches Denken, wissenschaftliches Denken, kulturelles und soziales Verständnis usw. Diese Aufgaben beinhalten komplexe visuelle Wahrnehmung, wissenschaftliches Denken, medizinische Bildinterpretation und andere Szenarien und enthalten mehr als 4.000 manuell überprüfte Denkschritte, mit denen die Genauigkeit und logische Kohärenz des Modells im mehrstufigen Denken umfassend bewertet werden kann.

Datenbeispiel

VRC-Bench.torrent
Seeding 1Herunterladen 0Abgeschlossen 83Gesamtdownloads 159
  • VRC-Bench/
    • README.md
      1.79 KB
    • README.txt
      3.58 KB
      • data/
        • VRC-Bench.zip
          465.89 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VRC-Bench-Benchmark-Datensatz Für Visuelles Denken | Datensätze | HyperAI