HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentations spatio-temporelles auto-supervisées pour les vidéos par prédiction des statistiques de mouvement et d'apparence

Jiangliu Wang extsuperscript1 extdagger Jianbo Jiao extsuperscript2 extdagger Linchao Bao extsuperscript3 extasteriskcentered Shengfeng He extsuperscript4 Yunhui Liu extsuperscript1 Wei Liu extsuperscript3 extasteriskcentered

Résumé

Nous abordons le problème de l'apprentissage de la représentation vidéo sans étiquettes annotées par des humains. Bien que les efforts précédents aient tenté de résoudre ce problème en concevant de nouvelles tâches d'auto-supervision utilisant des données vidéo, les caractéristiques apprises ne sont généralement qu'à base d'image par image, ce qui ne convient pas à de nombreuses tâches d'analyse vidéo où les caractéristiques spatio-temporelles prédominent. Dans cet article, nous proposons une nouvelle approche auto-supervisée pour apprendre des caractéristiques spatio-temporelles pour la représentation vidéo. Inspirés par le succès des approches à deux flux dans la classification vidéo, nous proposons d'apprendre des caractéristiques visuelles en régressant à la fois les statistiques du mouvement et de l'apparence le long des dimensions spatiales et temporelles, en utilisant uniquement les données vidéo d'entrée. Plus précisément, nous extrayons des concepts statistiques (régions à mouvement rapide et leur direction dominante correspondante, diversité chromatique spatio-temporelle, couleur dominante, etc.) à partir de motifs simples dans les domaines spatial et temporel. Contrairement aux casse-têtes antérieurs qui peuvent même être difficiles pour les humains à résoudre, notre approche est conforme aux habitudes visuelles inhérentes aux humains et donc facile à comprendre. Nous menons de nombreuses expériences avec C3D pour valider l'efficacité de notre approche proposée. Les expériences montrent que notre approche peut améliorer significativement les performances de C3D lorsqu'elle est appliquée à des tâches de classification vidéo. Le code est disponible sur https://github.com/laura-wang/video_repres_mas.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp