Command Palette
Search for a command to run...
WAVECLIP : Tokenisation par ondelettes pour CLIP à résolution adaptative
Moshe Kimhi Erez Koifman Ehud Rivlin Eli Schwartz Chaim Baskin

Résumé
Nous présentons WAVECLIP, un modèle unique et unifié pour une inférence à résolution adaptative dans CLIP, rendue possible par une tokenisation basée sur les ondelettes. WAVECLIP remplace les embeddings par patch standard par une décomposition multi-niveaux par ondelettes, permettant au modèle de traiter les images de manière grossière à fine tout en soutenant naturellement plusieurs résolutions au sein du même modèle. Lors de l'inférence, le modèle commence avec des tokens de faible résolution et ne raffine que lorsque nécessaire, en réutilisant les calculs grâce à une mémoire tampon de paires clé-valeur et à une attention causale croisant les niveaux, introduisant ainsi uniquement les nouvelles informations nécessaires. Nous évaluons WAVECLIP sur des tâches de classification zéro-shot, démontrant qu’un mécanisme simple de seuillage basé sur la confiance permet des sorties anticipées adaptatives. Cela permet aux utilisateurs de choisir dynamiquement un compromis entre coût de calcul et précision à l’aide d’un seul modèle déployé. Notre approche nécessite uniquement une distillation légère à partir d’un modèle enseignant CLIP gelé et atteint une précision compétitive tout en réalisant des économies computationnelles importantes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.