HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de l'apprentissage des représentations visuelles grâce à la compréhension perceptuelle

Samyakh Tukra Frederick Hoffman Ken Chatfield

Résumé

Nous présentons une extension des autoencodeurs masqués (MAE) qui améliore les représentations apprises par le modèle en encourageant explicitement l’acquisition de caractéristiques de haut niveau liées à la scène. Cela est réalisé par : (i) l’introduction d’un terme de similarité perceptuelle entre les images générées et les images réelles ; (ii) l’intégration de plusieurs techniques issues de la littérature sur l’entraînement adversaire, notamment l’entraînement à plusieurs échelles et l’augmentation adaptative du discriminateur. Cette combinaison conduit non seulement à une reconstruction pixel par pixel améliorée, mais aussi à des représentations capables de capturer de manière plus efficace des détails de haut niveau présents dans les images. Plus important encore, nous démontrons que notre méthode, appelée Perceptual MAE, permet d’obtenir de meilleures performances sur des tâches ultérieures, surpassant ainsi les approches antérieures. Nous atteignons une précision top-1 de 78,1 % lors d’un sondage linéaire sur ImageNet-1K, et jusqu’à 88,1 % en fin-tuning, avec des résultats similaires pour d’autres tâches ultérieures, tout en n’utilisant ni modèles pré-entraînés supplémentaires ni données externes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp