Datum

vor 3 Monaten

Größe

25.58 GB

Organisation

Paper-URL

2507.07984

Lizenz

Non-Commercial

Tags

Benchmarks

OST-Bench, 2025 vom Shanghai Artificial Intelligence Laboratory in Zusammenarbeit mit der Shanghai Jiao Tong University, der University of Hong Kong und anderen Institutionen veröffentlicht, ist ein Datensatz zur Evaluierung der Online-Fähigkeiten multimodaler großer Modelle zum räumlich-zeitlichen Szenenverständnis. Die zugehörige Forschungsarbeit trägt den Titel „OST-Bench: Bewertung der Fähigkeiten von MLLMs beim Online-Szenenverständnis im räumlich-zeitlichen KontextZiel ist es, die umfassenden Verständnisfähigkeiten multimodaler großer Modelle bei der Online-Szenenerkundung, der Modellierung sichtbarer Informationen und raumzeitlichen Schlussfolgerungsaufgaben zu bewerten.

Dieser Datensatz umfasst ca. 1.400 reale 3D-Innenraumszenen und generiert auf Basis der Szenenerkundung etwa 10.000 mehrrundige, zeitlich gestaffelte Frage-Antwort-Beispiele. Die Szenen stammen aus ScanNet, ARKitScenes und Matterport3D und wurden mithilfe einheitlicher 3D-Objekt- und semantischer Annotationen verarbeitet. Innerhalb jeder Szene wird eine kontinuierliche Blickwinkel-Erkundungstrajektorie erstellt, und basierend auf den gesammelten sichtbaren Informationen werden entsprechende Frage-Antwort-Inhalte generiert. Die Aufgabenstellung deckt drei zentrale Verständnisaspekte ab: Agentenzustand, sichtbare Informationen und räumliche Beziehungen zwischen Agent und Objekt. Diese sind in 15 Teilaufgaben unterteilt, die in einem mehrrundigen Dialogformat präsentiert werden und vom Modell die Fähigkeit erfordern, online raumzeitliche Schlussfolgerungen auf Basis vergangener Beobachtungen und des aktuellen Sichtfelds zu ziehen.

OST-Bench.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 2Gesamtdownloads 60

OST-Bench/
- README.md
  1.87 KB
- README.txt
  3.74 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 3 Monaten

Größe

25.58 GB

Organisation

Paper-URL

2507.07984

Lizenz

Non-Commercial

Verwandt Datensätze

IF-Bench Infrarot-Bildverständnis-Benchmark-Datensatz

vor 2 Monaten

EditReward-Bench Bildbearbeitungs-Evaluierungsdatensatz

vor 3 Monaten

5.08 GB61

UNO-Bench Benchmark-Datensatz Für Die Vollständige Modalbewertung

vor 3 Monaten

9.71 GB69

CL-bench Kontextlern-Evaluierungsbenchmark

vor 5 Tagen

Soul-Bench Audio-Driven Human Animation Evaluation Dataset

vor 2 Monaten

PhysToolBench Physik-Tool-Aufgabendatensatz

vor 2 Monaten

1.56 GB58

Spatial-SSRL-81k Spatial Awareness Self-Supervised Dataset

vor 2 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor einem Monat

FrontierScience Inference Research Task Evaluation Dataset

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OST-Bench Spatiotemporal Scene Understanding Benchmark Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OST-Bench Spatiotemporal Scene Understanding Benchmark Dataset

Verwandt Datensätze

IF-Bench Infrarot-Bildverständnis-Benchmark-Datensatz

EditReward-Bench Bildbearbeitungs-Evaluierungsdatensatz

UNO-Bench Benchmark-Datensatz Für Die Vollständige Modalbewertung

CL-bench Kontextlern-Evaluierungsbenchmark

Soul-Bench Audio-Driven Human Animation Evaluation Dataset

PhysToolBench Physik-Tool-Aufgabendatensatz

Spatial-SSRL-81k Spatial Awareness Self-Supervised Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

FrontierScience Inference Research Task Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OST-Bench Spatiotemporal Scene Understanding Benchmark Dataset

Verwandt Datensätze

IF-Bench Infrarot-Bildverständnis-Benchmark-Datensatz

EditReward-Bench Bildbearbeitungs-Evaluierungsdatensatz

UNO-Bench Benchmark-Datensatz Für Die Vollständige Modalbewertung

CL-bench Kontextlern-Evaluierungsbenchmark

Soul-Bench Audio-Driven Human Animation Evaluation Dataset

PhysToolBench Physik-Tool-Aufgabendatensatz

Spatial-SSRL-81k Spatial Awareness Self-Supervised Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

FrontierScience Inference Research Task Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Datensätze

IF-Bench Infrarot-Bildverständnis-Benchmark-Datensatz

EditReward-Bench Bildbearbeitungs-Evaluierungsdatensatz

UNO-Bench Benchmark-Datensatz Für Die Vollständige Modalbewertung

CL-bench Kontextlern-Evaluierungsbenchmark

Soul-Bench Audio-Driven Human Animation Evaluation Dataset

PhysToolBench Physik-Tool-Aufgabendatensatz

Spatial-SSRL-81k Spatial Awareness Self-Supervised Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

FrontierScience Inference Research Task Evaluation Dataset

Verwandt Datensätze

IF-Bench Infrarot-Bildverständnis-Benchmark-Datensatz

EditReward-Bench Bildbearbeitungs-Evaluierungsdatensatz

UNO-Bench Benchmark-Datensatz Für Die Vollständige Modalbewertung

CL-bench Kontextlern-Evaluierungsbenchmark

Soul-Bench Audio-Driven Human Animation Evaluation Dataset

PhysToolBench Physik-Tool-Aufgabendatensatz

Spatial-SSRL-81k Spatial Awareness Self-Supervised Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

FrontierScience Inference Research Task Evaluation Dataset