HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de Clustering Multimodaux pour l'Apprentissage Auto-supervisé à partir de Vidéos Non Étiquetées

Résumé

L'apprentissage auto-supervisé multimodal attire de plus en plus l'attention car il permet non seulement d'entraîner de grands réseaux sans supervision humaine, mais aussi de rechercher et de récupérer des données à travers différentes modalités. Dans ce contexte, cet article propose un cadre d'entraînement auto-supervisé qui apprend un espace d'embedding multimodal commun. En plus de partager des représentations entre différentes modalités, ce cadre impose un regroupement d'instances sémantiquement similaires. Pour atteindre cet objectif, nous étendons le concept d'apprentissage contrastif au niveau des instances avec une étape de clustering multimodal dans la chaîne d'entraînement afin de capturer les similarités sémantiques entre les modalités. L'espace d'embedding résultant permet la recherche et la récupération d'échantillons à travers toutes les modalités, même dans des jeux de données inédits et différents domaines. Pour évaluer notre approche, nous entraînons notre modèle sur le jeu de données HowTo100M et évaluons ses capacités de recherche zéro-shot dans deux domaines difficiles, à savoir la recherche texte-vidéo (text-to-video) et la localisation temporelle des actions, montrant des résultats de pointe sur quatre jeux de données différents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux de Clustering Multimodaux pour l'Apprentissage Auto-supervisé à partir de Vidéos Non Étiquetées | Articles | HyperAI