iDARTS : Amélioration de DARTS grâce à la normalisation des nœuds et à la discrétisation décorrélée

La recherche d'architectures différentiables (DARTS) utilise une relaxation continue de la représentation du réseau et accélère considérablement la recherche d'architectures neuronales (NAS) d'environ mille fois en unités GPU-jour. Toutefois, le processus de recherche de DARTS s'avère instable, souffrant d'une dégradation sévère lorsque le nombre d'époques d'entraînement augmente, ce qui limite son application pratique. Dans cet article, nous affirmons que ce problème de dégradation est dû à un déséquilibre des normes entre différents nœuds ainsi qu'à des sorties fortement corrélées issues de diverses opérations. Nous proposons alors une version améliorée de DARTS, nommée iDARTS, pour traiter ces deux problèmes. Pendant la phase d'entraînement, iDARTS introduit une normalisation des nœuds afin de préserver l'équilibre des normes. Lors de la phase de discrétisation, l'architecture continue est approximée en se basant sur la similarité entre les sorties des nœuds et les opérations décorrélées, plutôt que sur les valeurs des paramètres d'architecture. Des évaluations étendues ont été menées sur CIFAR-10 et ImageNet, rapportant des taux d'erreur respectifs de 2,25 % et 24,7 % en seulement 0,2 et 1,9 unités GPU-jour pour la recherche d'architecture, démontrant ainsi son efficacité. Une analyse complémentaire révèle également que iDARTS présente un avantage en robustesse et en généralisation par rapport aux variantes basées sur DARTS.