il y a 6 mois

Résumé

Le transfert de connaissances à partir de modèles profonds pré-entraînés non spécifiques à une tâche vers des tâches ultérieures constitue un sujet fondamental dans la recherche en vision par ordinateur. Parallèlement à l’augmentation de la capacité de calcul, nous disposons désormais de modèles pré-entraînés vision-langage à grande échelle, tant en termes d’architecture de modèle qu’en volume de données. Dans cette étude, nous nous concentrons sur le transfert de connaissances pour les tâches de classification vidéo. Les méthodes classiques initialisent aléatoirement la tête de classificateur linéaire pour la reconnaissance visuelle, tout en laissant inexplorée l’utilisation du encodeur de texte dans les tâches visuelles ultérieures. Dans cet article, nous réévaluons le rôle du classificateur linéaire et le remplaçons par une connaissance issue du modèle pré-entraîné, tirée de manière différente. Nous exploitons un modèle linguistique pré-entraîné de qualité pour générer des cibles sémantiques pertinentes, permettant un apprentissage par transfert plus efficace. L’étude expérimentale montre que notre méthode améliore à la fois la performance et la vitesse d’entraînement de la classification vidéo, avec une modification négligeable du modèle. Notre paradigme simple mais efficace atteint des performances de pointe et une entraînement efficace dans divers scénarios de reconnaissance vidéo, à savoir en situation zéro-shot, few-shot et généralisée. En particulier, notre approche atteint une précision de pointe de 87,8 % sur Kinetics-400, et dépasse les méthodes antérieures de 20 à 50 points de précision absolue au top-1 dans les configurations zéro-shot et few-shot sur cinq jeux de données vidéo populaires. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/whwu95/Text4Vis.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Wenhao Wu Zhun Sun Wanli Ouyang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Wenhao Wu Zhun Sun Wanli Ouyang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Revisiter le classificateur : transfert de modèles vision-langage pour la reconnaissance vidéo

Wenhao Wu Zhun Sun Wanli Ouyang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Revisiter le classificateur : transfert de modèles vision-langage pour la reconnaissance vidéo

Wenhao Wu Zhun Sun Wanli Ouyang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Revisiter le classificateur : transfert de modèles vision-langage pour la reconnaissance vidéo

Wenhao Wu Zhun Sun Wanli Ouyang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters