HyperAIHyperAI

Command Palette

Search for a command to run...

vor 9 Tagen

Open-o3 Video: Grundlegende Video-Reasoning mit expliziten räumlich-zeitlichen Beweisen

Open-o3 Video: Grundlegende Video-Reasoning mit expliziten räumlich-zeitlichen Beweisen

Abstract

Die meisten Modelle für Video-Reasoning generieren lediglich textbasierte Schlussfolgerungstrajektorien, ohne anzugeben, zu welchem Zeitpunkt und an welcher Stelle sich entscheidende Beweise befinden. Kürzlich haben Modelle wie OpenAI-o3 großes Interesse an beweisbasiertem Reasoning für Bilder geweckt, doch die Erweiterung dieser Fähigkeit auf Videos ist herausfordernder, da sie eine gleichzeitige zeitliche Verfolgung und räumliche Lokalisierung in dynamischen Szenen erfordert. Wir stellen Open-o3 Video vor, einen nicht-agentenbasierten Ansatz, der explizite räumlich-zeitliche Beweise in den Prozess des Video-Reasoning integriert. Durch sorgfältige Sammlung von Trainingsdaten und die Entwicklung spezifischer Trainingsstrategien adressieren wir die oben genannten Herausforderungen. Das Modell markiert zentrale Zeitstempel, Objekte und Umrisse (Bounding Boxes) zusammen mit seinen Antworten, wodurch der Schlussfolgerungsprozess an konkrete visuelle Beobachtungen gebunden ist. Um diese Funktionalität zu ermöglichen, haben wir zunächst zwei hochwertige Datensätze erstellt: STGR-CoT-30k für Supervised Fine-Tuning (SFT) und STGR-RL-36k für Reinforcement Learning (RL), die sorgfältig konstruierte zeitliche und räumliche Annotationen enthalten. Denn die meisten bestehenden Datensätze bieten entweder zeitliche Intervalle für Videos oder räumliche Boxen für Bilder, fehlen jedoch an einer einheitlichen räumlich-zeitlichen Aufsicht sowie an Schlussfolgerungstrajektorien. Anschließend implementieren wir eine Cold-Start-Strategie im Rahmen des Reinforcement Learning mit mehreren speziell entworfenen Belohnungsfunktionen, die gleichzeitig Antwortgenauigkeit, zeitliche Korrespondenz und räumliche Präzision fördern. Auf dem V-STAR-Benchmark erreicht Open-o3 Video eine state-of-the-art-Leistung, wobei die mAM um 14,4 % und die mLGM um 24,2 % gegenüber der Qwen2.5-VL-Basislinie steigen. Konsistente Verbesserungen werden zudem auf einer breiten Palette von Video-Verständnis-Benchmarks beobachtet, darunter VideoMME, WorldSense, VideoMMMU und TVGBench. Neben der erhöhten Genauigkeit liefern die von Open-o3 Video generierten Schlussfolgerungstrajektorien zudem wertvolle Signale für die Skalierung zur Testzeit, was die vertrauensbasierte Validierung und die Verbesserung der Antwortzuverlässigkeit ermöglicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Open-o3 Video: Grundlegende Video-Reasoning mit expliziten räumlich-zeitlichen Beweisen | Forschungsarbeiten | HyperAI