HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation du codeur vidéo à faible fidélité pour la localisation temporelle des actions

Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu

Résumé

La plupart des méthodes existantes de localisation d’actions temporelles (TAL) reposent sur une pipeline d’apprentissage par transfert : un encodeur vidéo est d’abord optimisé sur un grand jeu de données de classification d’actions (domaine source), puis l’encodeur est gelé et une tête de TAL est entraînée sur un jeu de données de localisation d’actions (domaine cible). Ce processus engendre un problème de discordance de tâche pour l’encodeur vidéo — entraîné pour la classification d’actions, mais utilisé pour la TAL. Intuitivement, une optimisation conjointe de l’encodeur vidéo et de la tête de TAL constituerait une solution de base robuste à ce déséquilibre. Toutefois, cette approche n’est pas réalisable dans le cadre de la TAL en raison des contraintes mémoire GPU, du fait du coût computationnel prohibitif lié au traitement de vidéos longues non tronquées. Dans cet article, nous résolvons ce défi en introduisant une nouvelle méthode d’optimisation d’encodeur vidéo à faible fidélité (LoFi). Au lieu d’utiliser systématiquement les configurations d’entraînement complètes en TAL, nous proposons de réduire la composition des mini-batches en termes de résolution temporelle, spatiale ou spatio-temporelle, afin de rendre possible l’optimisation conjointe de l’encodeur vidéo et de la tête de TAL dans des conditions mémoire compatibles avec un budget matériel moyen. De façon cruciale, cette approche permet aux gradients de remonter à travers l’encodeur vidéo sous la supervision d’une perte de TAL, résolvant ainsi favorablement le problème de discordance de tâche et fournissant des représentations de caractéristiques plus efficaces. Des expériences étendues montrent que la méthode d’optimisation LoFi proposée améliore significativement les performances des méthodes TAL existantes. De manière encourageante, même avec un encodeur vidéo léger basé sur ResNet18 dans un seul flux RGB, notre méthode dépasse les alternatives à deux flux (RGB + flux optique) basées sur ResNet50, souvent avec un écart notable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimisation du codeur vidéo à faible fidélité pour la localisation temporelle des actions | Articles | HyperAI