il y a 8 mois

Résumé

Récemment, les grands modèles pré-entraînés de vision-langue (par exemple, CLIP) ont suscité une attention considérable grâce à leurs capacités représentatives puissantes. Cela inspire les chercheurs à transférer les connaissances de ces grands modèles pré-entraînés vers d'autres modèles spécifiques à des tâches, comme les modèles de reconnaissance d'actions vidéo (VAR), en utilisant particulièrement des réseaux latéraux pour améliorer l'efficacité du fine-tuning paramétrique efficace (PEFT). Cependant, les approches actuelles de transfert dans le domaine de la VAR tendent à transférer directement les connaissances figées des grands modèles pré-entraînés vers les réseaux de reconnaissance d'actions avec un coût minimal, plutôt que d'exploiter les capacités de modélisation temporelle propres aux modèles de reconnaissance d'actions. Par conséquent, dans cet article, nous proposons un réseau latéral à différences temporelles économisant la mémoire (TDS-CLIP) pour équilibrer le transfert de connaissances et la modélisation temporelle, évitant ainsi la rétropropagation dans les modèles à paramètres figés. Plus précisément, nous introduisons un adaptateur à différences temporelles (TD-Adapter), capable de capturer efficacement les différences temporelles locales dans les caractéristiques du mouvement afin de renforcer les capacités globales de modélisation temporelle du modèle. De plus, nous avons conçu un adaptateur d'amélioration latérale du mouvement (SME-Adapter) pour guider le réseau latéral proposé dans l'apprentissage efficace des informations riches sur le mouvement contenues dans les vidéos, améliorant ainsi la capacité du réseau latéral à capturer et apprendre ces informations sur le mouvement. Des expériences étendues sont menées sur trois ensembles de données de référence, incluant Something-Something V1 & V2 et Kinetics-400. Les résultats expérimentaux démontrent que notre approche atteint des performances compétitives.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Reconnaissance D'action

Image Vers Vidéo

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Reconnaissance D'action

Image Vers Vidéo

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

TDS-CLIP : Réseau de Différence Temporelle latéral pour le Transfert d'Image à Vidéo par Apprentissage

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TDS-CLIP : Réseau de Différence Temporelle latéral pour le Transfert d'Image à Vidéo par Apprentissage

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TDS-CLIP : Réseau de Différence Temporelle latéral pour le Transfert d'Image à Vidéo par Apprentissage

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters