OneNet : Un U-Net à convolution 1D par canal

De nombreuses architectures de vision par ordinateur de pointe s'appuient sur U-Net grâce à sa capacité d'adaptation et à son efficacité dans l'extraction de caractéristiques. Toutefois, la conception multi-résolution à convolution souvent utilisée engendre des exigences computationnelles importantes, limitant ainsi son déploiement sur des dispositifs embarqués. Nous proposons une alternative simplifiée : un encodeur à convolution 1D qui préserve la précision tout en améliorant sa faisabilité pour les applications embarquées. Notre nouvelle architecture d'encodeur réalise la segmentation sémantique à l'aide de convolutions 1D par canal combinées à des opérations de « pixel-unshuffle ». En intégrant PixelShuffle, une technique connue pour améliorer la précision dans les tâches de super-résolution tout en réduisant la charge computationnelle, OneNet capte les relations spatiales sans recourir à des convolutions 2D, réduisant ainsi le nombre de paramètres jusqu’à 47 %. Par ailleurs, nous explorons un encodeur-décodeur entièrement 1D, qui permet une réduction de taille de 71 %, bien que cela entraîne une légère perte de précision. Nous évaluons notre approche en la comparant à diverses variantes de U-Net sur des tâches variées de génération de masques, démontrant qu’elle préserve efficacement la précision. Bien que centrée sur la segmentation d’images, cette architecture est adaptable à d’autres applications basées sur les convolutions. Le code du projet est disponible à l’adresse suivante : https://github.com/shbyun080/OneNet.