RF-Next : Recherche efficace du champ réceptif pour les réseaux de neurones convolutifs

Les champs réceptifs temporels et spatiaux des modèles jouent un rôle crucial dans les tâches séquentielles ou spatiales. Des champs réceptifs étendus permettent de capturer des relations à long terme, tandis que des champs réceptifs réduits aident à saisir les détails locaux. Les méthodes existantes conçoivent des modèles à l’aide de champs réceptifs prédéfinis manuellement au sein des couches. Peut-on rechercher efficacement des combinaisons de champs réceptifs afin de remplacer ces motifs conçus à la main ? Pour répondre à cette question, nous proposons une stratégie de recherche globale vers locale afin d’identifier des combinaisons de champs réceptifs améliorées. Notre méthode exploite à la fois une recherche globale, permettant de découvrir des combinaisons grossières au-delà des schémas conçus par l’humain, et une recherche locale itérative guidée par l’espérance, afin d’affiner davantage ces combinaisons. Les modèles RF-Next, intégrant cette recherche de champs réceptifs dans divers architectures, améliorent significativement les performances sur de nombreuses tâches, telles que la segmentation d’actions temporelles, la détection d’objets, la segmentation d’instances et la synthèse vocale. Le code source est disponible publiquement à l’adresse http://mmcheng.net/rfnext.