HyperAIHyperAI
il y a 2 mois

Apprentissage de la symétrisation probabiliste pour l'équivariance indépendante de l'architecture

Jinwoo Kim; Tien Dat Nguyen; Ayhan Suleymanzade; Hyeokjun An; Seunghoon Hong
Apprentissage de la symétrisation probabiliste pour l'équivariance indépendante de l'architecture
Résumé

Nous présentons un nouveau cadre visant à surmonter les limitations des architectures équivariantes dans l'apprentissage de fonctions avec des symétries de groupe. Contrairement aux architectures équivariantes, nous utilisons un modèle de base arbitraire, tel qu'un perceptron multicouche (MLP) ou un transformer, et le symétrisons pour qu'il soit équivariant au groupe donné en employant un petit réseau équivariant qui paramètre la distribution probabiliste sous-jacente à la symétrisation. Cette distribution est entraînée de manière end-to-end avec le modèle de base, ce qui permet d'optimiser les performances tout en réduisant la complexité d'échantillonnage de la symétrisation. Nous montrons que cette approche garantit non seulement l'équivariance au groupe donné, mais aussi une capacité d'approximation universelle en espérance. Nous implémentons notre méthode sur divers modèles de base, y compris des transformers basés sur des patches qui peuvent être initialisés à partir de transformers visuels préentraînés, et nous les testons pour une large gamme de groupes de symétrie, incluant les groupes de permutations et euclidiens ainsi que leurs combinaisons. Les tests empiriques montrent des résultats compétitifs par rapport aux architectures équivariantes spécifiquement conçues, suggérant le potentiel d'apprendre des fonctions équivariantes pour des groupes variés en utilisant une architecture universelle non-équivariante. Nous fournissons également des preuves d'un apprentissage amélioré dans les modalités symétriques, comme les graphes, lorsqu'ils sont préentraînés à partir de modalités non-symétriques, comme la vision. Le code est disponible à l'adresse https://github.com/jw9730/lps.

Apprentissage de la symétrisation probabiliste pour l'équivariance indépendante de l'architecture | Articles de recherche récents | HyperAI