@misc{thawakar2025llamavo1, title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs}, author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan}, year={2025}, eprint={2501.06186}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.06186}, }

Datum

vor einem Jahr

Größe

465.89 MB

Organisation

Paper-URL

arxiv.org

Tags

Multimodal

VRC-Bench ist der erste Benchmark, der speziell für multimodale Schritt-für-Schritt-Argumentationsaufgaben entwickelt wurde. Ziel ist eine umfassende Bewertung der Leistung von Modellen in komplexen Denkszenarien. Es wurde 2025 von der Mohamed bin Zayed University of Artificial Intelligence, der University of Central Florida, der Universität Linköping und der Australian National University veröffentlicht. Die entsprechenden Ergebnisse der Studie sind „LlamaV-o1: Schrittweises visuelles Denken in LLMs neu denken". Im Gegensatz zu herkömmlichen Benchmarks, die sich nur auf die Genauigkeit des Endergebnisses konzentrieren, konzentriert sich VRC-Bench auf die Bewertung der Qualität jedes einzelnen Denkschritts und bietet eine detailliertere Bewertung der Modellfähigkeiten. Der Datensatz deckt Herausforderungen in acht verschiedenen Bereichen ab, darunter visuelles Denken, mathematisches und logisches Denken, wissenschaftliches Denken, kulturelles und soziales Verständnis usw. Diese Aufgaben beinhalten komplexe visuelle Wahrnehmung, wissenschaftliches Denken, medizinische Bildinterpretation und andere Szenarien und enthalten mehr als 4.000 manuell überprüfte Denkschritte, mit denen die Genauigkeit und logische Kohärenz des Modells im mehrstufigen Denken umfassend bewertet werden kann.

Zitat

@misc{thawakar2025llamavo1,
title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs},
author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
year={2025},
eprint={2501.06186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.06186},
}

VRC-Bench.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 132Gesamtdownloads 247

VRC-Bench/
- README.md
  1.79 KB
- README.txt
  3.58 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor einem Jahr

Größe

465.89 MB

Organisation

Paper-URL

arxiv.org

Zitat

@misc{thawakar2025llamavo1,
title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs},
author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
year={2025},
eprint={2501.06186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.06186},
}

VRC-Bench.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 132Gesamtdownloads 247

VRC-Bench/
- README.md
  1.79 KB
- README.txt
  3.58 KB

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

vor 2 Tagen

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

vor 2 Tagen

ChartNet-Diagramme Verstehen Multimodale Datensätze

vor einem Monat

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

vor einem Monat

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

vor 13 Tagen

ViMU-Datensatz Zum Verständnis Von Videometaphern

vor einem Monat

VisCoR-55K Visual Inference Dataset

vor einem Monat

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

vor einem Monat

Claw-Eval Real-World Benchmark Dataset

vor einem Monat

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

vor 2 Monaten

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

vor 8 Tagen

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

vor 8 Tagen

World Model Bench-Datensatz

vor 2 Monaten

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VRC-Bench-Benchmark-Datensatz Für Visuelles Denken

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VRC-Bench-Benchmark-Datensatz Für Visuelles Denken

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

ChartNet-Diagramme Verstehen Multimodale Datensätze

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

VisCoR-55K Visual Inference Dataset

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

World Model Bench-Datensatz

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VRC-Bench-Benchmark-Datensatz Für Visuelles Denken

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

ChartNet-Diagramme Verstehen Multimodale Datensätze

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

VisCoR-55K Visual Inference Dataset

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

World Model Bench-Datensatz

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

ChartNet-Diagramme Verstehen Multimodale Datensätze

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

VisCoR-55K Visual Inference Dataset

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

World Model Bench-Datensatz

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

ChartNet-Diagramme Verstehen Multimodale Datensätze

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

VisCoR-55K Visual Inference Dataset

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

World Model Bench-Datensatz

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz