HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 9 jours

Open-o3 Video : Raisonnement vidéo fondé sur des preuves spatio-temporelles explicites

Open-o3 Video : Raisonnement vidéo fondé sur des preuves spatio-temporelles explicites

Résumé

La plupart des modèles de raisonnement vidéo ne produisent que des traces de raisonnement textuelles, sans indiquer ni le moment ni le lieu où apparaissent les éléments clés de preuve. Des modèles récents tels qu’OpenAI-o3 ont suscité un vif intérêt pour le raisonnement centré sur les preuves visuelles, mais étendre cette capacité aux vidéos s’avère plus complexe, car elle exige un suivi conjoint dans le temps et une localisation spatiale à travers des scènes dynamiques. Nous introduisons Open-o3 Video, un cadre non-agent qui intègre explicitement des preuves spatio-temporelles dans le raisonnement vidéo, et recueillons soigneusement des données d’entraînement tout en concevant des stratégies d’entraînement pour relever les défis susmentionnés. Le modèle met en évidence des instants clés, des objets et des boîtes englobantes (bounding boxes) en parallèle de ses réponses, permettant ainsi de fonder le raisonnement sur des observations visuelles concrètes. Pour permettre cette fonctionnalité, nous avons d’abord constitué et construit deux jeux de données de haute qualité : STGR-CoT-30k pour l’entraînement supervisé (SFT) et STGR-RL-36k pour l’apprentissage par renforcement (RL), dotés d’annotations temporelles et spatiales soigneusement conçues. En effet, la plupart des jeux de données existants offrent soit des intervalles temporels pour les vidéos, soit des boîtes spatiales pour les images, mais manquent d’une supervision unifiée spatio-temporelle et de traces de raisonnement. Ensuite, nous adoptons une stratégie d’apprentissage par renforcement à démarrage froid, basée sur plusieurs récompenses spécifiquement conçues, qui encouragent conjointement la précision de la réponse, l’alignement temporel et la précision spatiale. Sur le benchmark V-STAR, Open-o3 Video atteint des performances de pointe, augmentant le mAM de 14,4 % et le mLGM de 24,2 % par rapport à la base Qwen2.5-VL. Des améliorations cohérentes sont également observées sur une large gamme de benchmarks d’understanding vidéo, notamment VideoMME, WorldSense, VideoMMMU et TVGBench. Au-delà de la précision, les traces de raisonnement produites par Open-o3 Video fournissent également des signaux précieux pour l’agrandissement à l’échelle au moment du test, permettant une vérification consciente de la confiance et améliorant ainsi la fiabilité des réponses.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Open-o3 Video : Raisonnement vidéo fondé sur des preuves spatio-temporelles explicites | Articles de recherche | HyperAI