HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentations vidéo auto-supervisé avec des puzzles cubiques spatio-temporels

Dahun Kim Donghyeon Cho In So Kweon

Résumé

Les tâches auto-supervisées telles que la colorisation, l'inpainting et le puzzle de type jigsaw ont été utilisées pour l'apprentissage de représentations visuelles d'images fixes lorsque le nombre d'images étiquetées est limité ou inexistant. Récemment, cette direction de recherche prometteuse s'est étendue au domaine des vidéos, où le coût de l'étiquetage manuel est encore plus élevé. Cependant, la plupart des méthodes existantes reposent toujours sur des architectures de réseaux neuronaux convolutifs 2D (CNN) qui ne peuvent pas capturer directement les informations spatio-temporelles nécessaires aux applications vidéo. Dans cet article, nous introduisons une nouvelle tâche auto-supervisée appelée \textit{Puzzles Spatio-Temporels Cubiques} pour entraîner des CNN 3D à l'aide d'un grand ensemble de données vidéo. Cette tâche exige que le réseau réorganise des fragments spatio-temporels 3D permutés. En résolvant ces \textit{Puzzles Spatio-Temporels Cubiques}, le réseau apprend à la fois l'apparence spatiale et les relations temporelles entre les trames vidéo, ce qui constitue notre objectif final. Dans nos expériences, nous montrons que notre représentation 3D apprise se transfère bien aux tâches de reconnaissance d'actions et surpasse les concurrents basés sur des CNN 2D de pointe sur les ensembles de données UCF101 et HMDB51.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp