HyperAIHyperAI
il y a 16 jours

Apprentissage conjoint de l'apparence et du mouvement pour une correction efficace du shutter roulant

{Qi Liu, Zhexiong Wan, Yuchao Dai, Yuxin Mao, Bin Fan}
Apprentissage conjoint de l'apparence et du mouvement pour une correction efficace du shutter roulant
Résumé

La correction du shutter roulant (RSC) gagne en popularité pour les caméras à défilement (RS), largement utilisées dans les applications commerciales et industrielles. Malgré ses performances prometteuses, la plupart des méthodes existantes de RSC reposent sur une architecture en deux étapes, négligeant les interactions intrinsèques entre les informations et limitant ainsi l’inférence rapide. Dans ce travail, nous proposons un réseau à une seule étape basé sur une architecture encodeur-décodeur, nommé JAMNet, pour une RSC efficace. Ce modèle extrait d’abord des caractéristiques pyramidales à partir d’entrées RS consécutives, puis affine simultanément deux types d’informations complémentaires — à savoir l’apparence au shutter global et le champ de mouvement sans distorsion — afin d’obtenir une amélioration mutuelle au sein d’un décodeur d’apprentissage conjoint. Pour intégrer des indices de mouvement suffisants afin de guider cet apprentissage conjoint, nous introduisons un module d’encodage de mouvement basé sur un transformer et proposons de transmettre les états cachés entre les niveaux pyramidaux. En outre, nous présentons une nouvelle stratégie d’augmentation de données appelée « flip vertical + ordre inverse » afin de tirer pleinement parti des jeux de données RSC. Les expériences menées sur diverses benchmarks montrent que notre approche surpasse significativement les méthodes de pointe, notamment avec une augmentation de 4,7 dB en PSNR sur des données réelles. Le code source est disponible à l’adresse suivante : https://github.com/GitCVfb/JAMNet.

Apprentissage conjoint de l'apparence et du mouvement pour une correction efficace du shutter roulant | Articles de recherche récents | HyperAI