il y a 6 mois

Résumé

La plupart des méthodes existantes de localisation d’actions temporelles (TAL) reposent sur une pipeline d’apprentissage par transfert : un encodeur vidéo est d’abord optimisé sur un grand jeu de données de classification d’actions (domaine source), puis l’encodeur est gelé et une tête de TAL est entraînée sur un jeu de données de localisation d’actions (domaine cible). Ce processus engendre un problème de discordance de tâche pour l’encodeur vidéo — entraîné pour la classification d’actions, mais utilisé pour la TAL. Intuitivement, une optimisation conjointe de l’encodeur vidéo et de la tête de TAL constituerait une solution de base robuste à ce déséquilibre. Toutefois, cette approche n’est pas réalisable dans le cadre de la TAL en raison des contraintes mémoire GPU, du fait du coût computationnel prohibitif lié au traitement de vidéos longues non tronquées. Dans cet article, nous résolvons ce défi en introduisant une nouvelle méthode d’optimisation d’encodeur vidéo à faible fidélité (LoFi). Au lieu d’utiliser systématiquement les configurations d’entraînement complètes en TAL, nous proposons de réduire la composition des mini-batches en termes de résolution temporelle, spatiale ou spatio-temporelle, afin de rendre possible l’optimisation conjointe de l’encodeur vidéo et de la tête de TAL dans des conditions mémoire compatibles avec un budget matériel moyen. De façon cruciale, cette approche permet aux gradients de remonter à travers l’encodeur vidéo sous la supervision d’une perte de TAL, résolvant ainsi favorablement le problème de discordance de tâche et fournissant des représentations de caractéristiques plus efficaces. Des expériences étendues montrent que la méthode d’optimisation LoFi proposée améliore significativement les performances des méthodes TAL existantes. De manière encourageante, même avec un encodeur vidéo léger basé sur ResNet18 dans un seul flux RGB, notre méthode dépasse les alternatives à deux flux (RGB + flux optique) basées sur ResNet50, souvent avec un écart notable.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Traitement Vidéo

Apprentissage Multi-tâches

Approche/Framework

Vision Par Ordinateur

Tâche

Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Traitement Vidéo

Apprentissage Multi-tâches

Approche/Framework

Vision Par Ordinateur

Tâche

Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Optimisation du codeur vidéo à faible fidélité pour la localisation temporelle des actions

Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Optimisation du codeur vidéo à faible fidélité pour la localisation temporelle des actions

Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Optimisation du codeur vidéo à faible fidélité pour la localisation temporelle des actions

Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters