Apprentissage de noyaux profonds pour des tests du deux-échantillons non paramétriques

Nous proposons une classe de tests à deux échantillons basés sur des noyaux, visant à déterminer si deux ensembles d’échantillons sont tirés de la même distribution. Nos tests sont construits à partir de noyaux paramétrés par des réseaux de neurones profonds, entraînés pour maximiser la puissance du test. Ces noyaux s’adaptent aux variations de lissité et de forme des distributions dans l’espace, et se révèlent particulièrement adaptés aux dimensions élevées et aux données complexes. À l’inverse, les noyaux plus simples utilisés dans les travaux antérieurs sur les tests basés sur les noyaux sont homogènes dans l’espace et s’adaptent uniquement à l’échelle de longueur. Nous expliquons comment ce cadre inclut comme cas particulier les tests à deux échantillons populaires basés sur les classificateurs, tout en les améliorant en général. Nous fournissons la première preuve de convergence pour la méthode d’adaptation proposée, applicable aussi bien aux noyaux définis sur des caractéristiques profondes qu’aux noyaux radiaux plus simples ou à l’apprentissage de noyaux multiples. Dans nos expériences, nous établissons la supériorité des noyaux profonds dans les tests d’hypothèses sur des données de référence et des données réelles. Le code des tests à deux échantillons basés sur des noyaux profonds est disponible à l’adresse suivante : https://github.com/fengliu90/DK-for-TST.