DPFlow : Estimation adaptative du flux optique basée sur un cadre à double pyramide

L’estimation du flux optique est essentielle pour de nombreuses tâches de traitement vidéo, telles que la restauration ou la reconnaissance d’actions. La qualité des vidéos ne cesse d’évoluer, atteignant actuellement des résolutions allant jusqu’à 8K. Toutefois, les méthodes actuelles de flux optique sont généralement conçues pour des résolutions faibles et ne se généralisent pas efficacement aux entrées de grande taille en raison de leurs architectures rigides. Elles recourent à une réduction d’échelle ou au découpage de l’entrée (input tiling) afin de diminuer la taille d’entrée, ce qui entraîne une perte de détails et d’informations globales. Par ailleurs, il existe un manque de benchmarks pour évaluer de manière objective les performances réelles des méthodes existantes sur des échantillons à haute résolution. Les travaux antérieurs se sont limités à des évaluations qualitatives sur des échantillons sélectionnés à la main. Ce papier comble cette lacune en deux volets. Nous proposons DPFlow, une architecture de flux optique adaptative capable de généraliser à des entrées de résolution jusqu’à 8K, bien qu’entraînée uniquement sur des échantillons à faible résolution. Nous introduisons également Kubric-NK, un nouveau benchmark pour évaluer les méthodes de flux optique sur des résolutions d’entrée variant de 1K à 8K. Notre évaluation à haute résolution pousse les limites des méthodes existantes et révèle de nouvelles perspectives sur leurs capacités de généralisation. Des résultats expérimentaux étendus montrent que DPFlow atteint des performances de pointe sur les benchmarks MPI-Sintel, KITTI 2015, Spring et d’autres benchmarks à haute résolution.