Transformation d'images statiques à l'aide de modèles génératifs pour la détection d'objets saillants dans les vidéos

Dans de nombreuses tâches de traitement vidéo, l'exploitation de grands ensembles de données d'images est une stratégie courante, car les données d'images sont plus abondantes et facilitent le transfert de connaissances exhaustif. Une approche typique pour simuler des vidéos à partir d'images statiques consiste à appliquer des transformations spatiales, telles que des transformations affines et du lissage par splines, afin de créer des séquences qui imitent la progression temporelle. Cependant, dans des tâches comme la détection d'objets saillants dans les vidéos, où les indices d'apparence et de mouvement sont cruciaux, ces techniques basiques d'image à vidéo échouent à produire des flux optiques réalistes capables de capturer les propriétés de mouvement indépendantes de chaque objet. Dans cette étude, nous montrons que les modèles de diffusion image-vidéo peuvent générer des transformations réalistes d'images statiques tout en comprenant les relations contextuelles entre les composants de l'image. Cette capacité permet au modèle de générer des flux optiques plausibles, préservant l'intégrité sémantique tout en reflétant le mouvement indépendant des éléments de la scène. En augmentant ainsi individuellement les images, nous créons des paires image-flux optiques à grande échelle qui améliorent considérablement l'entraînement du modèle. Notre approche atteint des performances d'état de l'art sur tous les jeux de données基准数据集 (benchmark datasets) publics, surpassant les approches existantes.