il y a 8 mois

Résumé

Nous présentons CrissCross, un cadre d'apprentissage auto-supervisé pour l'acquisition de représentations audiovisuelles. Notre cadre introduit une nouvelle notion selon laquelle, en plus d'apprendre les relations intramodales et intermodales standards « synchrones », CrissCross apprend également des relations intermodales « asynchrones ». Nous menons des études approfondies démontrant que, en relâchant la synchronicité temporelle entre les modalités audio et visuelle, le réseau acquiert des représentations généralisées robustes utiles pour diverses tâches ultérieures. Pour pré-entraîner notre solution proposée, nous utilisons trois jeux de données différents de tailles variables : Kinetics-Sound, Kinetics400 et AudioSet. Les représentations apprises sont évaluées sur plusieurs tâches ultérieures, notamment la reconnaissance d'actions, la classification de sons et la recherche d'actions. Nos expériences montrent que CrissCross soit surpasse, soit atteint des performances comparables aux méthodes actuelles d'apprentissage auto-supervisé les plus avancées en matière de reconnaissance d'actions et de recherche d'actions avec UCF101 et HMDB51, ainsi que de classification de sons avec ESC50 et DCASE. De plus, CrissCross surpasse l'apprentissage pré-entraîné entièrement supervisé lorsqu'il est pré-entraîné sur Kinetics-Sound. Les codes source et les modèles pré-entraînés sont disponibles sur le site web du projet.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Any-to-Any

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Pritam Sarkar Ali Etemad

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Any-to-Any

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Pritam Sarkar Ali Etemad

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Apprentissage de représentations audiovisuelles auto-supervisées avec synchronicité intermodale relaxée

Pritam Sarkar Ali Etemad

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de représentations audiovisuelles auto-supervisées avec synchronicité intermodale relaxée

Pritam Sarkar Ali Etemad

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de représentations audiovisuelles auto-supervisées avec synchronicité intermodale relaxée

Pritam Sarkar Ali Etemad

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters