HyperAIHyperAI
il y a 17 jours

Un réseau récurrent léger pour la super-résolution de vidéos satellitaires

{Manqi Zhao, Shengyang Li, Han Wang}
Résumé

Le traitement intelligent et l’analyse des vidéos satellitaires sont devenus l’un des axes de recherche majeurs dans le domaine de la représentation des données d’observation de la Terre. La super-résolution des vidéos satellitaires (SVSR, Satellite Video Super-Resolution) constitue une direction de recherche particulièrement importante, capable d’améliorer significativement la qualité des images dans les vidéos satellites. Toutefois, les approches existantes pour la SVSR sous-exploitent fréquemment un avantage fondamental inhérent aux vidéos satellitales : la présence de séquences étendues d’images capturant une scène constante. Actuellement, la majorité des méthodes de SVSR ne tirent parti que d’un nombre limité de cadres adjacents pour améliorer la résolution d’un cadre individuel, ce qui entraîne une utilisation sous-optimale de l’information disponible. À cet égard, nous proposons une nouvelle architecture appelée Recurrent Aggregation Network for Satellite Video Super-Resolution (RASVSR). Ce cadre innovant exploite un réseau de neurones récurrents bidirectionnel afin de propager les caractéristiques extraites à partir de chaque cadre à travers l’ensemble de la séquence vidéo. Il repose sur une méthode d’alignement basée sur le flux optique et la convolution déformable (DCN) pour réaliser un alignement précis des caractéristiques, ainsi qu’un module de fusion de caractéristiques temporelles (TFF, Temporal Feature Fusion Module) permettant une fusion efficace des informations au fil du temps. Notamment, notre étude met en évidence l’impact positif de l’utilisation de séquences d’images plus longues dans le cadre de la SVSR. Dans le cadre de RASVSR, grâce à un alignement et une fusion améliorés, le champ perceptif de chaque cadre s’étend sur jusqu’à 100 cadres de la vidéo, permettant ainsi d’acquérir des informations plus riches et d’exploiter des complémentarités entre les images. Cette approche stratégique se traduit par des performances supérieures par rapport aux méthodes existantes, comme le démontre une amélioration significative de 1,15 dB en PSNR, tout en utilisant très peu de paramètres.