HyperAIHyperAI
il y a 17 jours

SCP : Apprentissage de prompt conditionnel souple pour la reconnaissance d'actions dans les vidéos aériennes

Xijun Wang, Ruiqi Xian, Tianrui Guan, Fuxiao Liu, Dinesh Manocha
SCP : Apprentissage de prompt conditionnel souple pour la reconnaissance d'actions dans les vidéos aériennes
Résumé

Nous présentons une nouvelle approche d’apprentissage, appelée apprentissage par prompts conditionnels souples (Soft Conditional Prompt Learning, SCP), qui exploite les avantages de l’apprentissage par prompts pour la reconnaissance d’actions dans les vidéos aériennes. Notre méthode vise à prédire l’action de chaque agent en aidant les modèles à se concentrer sur les descriptions ou instructions associées aux actions présentes dans les vidéos d’entrée, dans le cadre de la perception visuelle aérienne ou robotique. Notre formulation permet d’intégrer divers types de prompts, notamment des prompts apprenables, des informations visuelles auxiliaires et des grands modèles visionnels, afin d’améliorer les performances de reconnaissance. Nous proposons une méthode de prompts conditionnels souples qui apprend à générer dynamiquement des prompts à partir d’un ensemble d’experts en prompts, en fonction des entrées vidéo. En partageant la même fonction objectif que la tâche, notre approche SCP permet d’optimiser des prompts guidant les prédictions du modèle, tout en apprenant explicitement des connaissances invariantes par rapport à l’entrée (ensemble d’experts en prompts) et des connaissances spécifiques à l’entrée (dépendantes des données). En pratique, nous observons une amélioration de la précision comprise entre 3,17 % et 10,2 % sur des jeux de données vidéo aérienne (Okutama, NECDrone), comprenant des scènes avec des actions à agent unique ou à plusieurs agents. Nous évaluons également notre méthode sur des vidéos captées par des caméras au sol afin de vérifier son efficacité et sa capacité de généralisation, obtenant une amélioration de 1,0 % à 3,6 % sur le jeu de données SSV2. Enfin, nous avons intégré notre méthode dans ROS2.

SCP : Apprentissage de prompt conditionnel souple pour la reconnaissance d'actions dans les vidéos aériennes | Articles de recherche récents | HyperAI