HyperAIHyperAI
il y a 11 jours

CoordFlow : Flux de coordonnées pour une représentation vidéo neuronale par pixel

Daniel Silver, Ron Kimmel
CoordFlow : Flux de coordonnées pour une représentation vidéo neuronale par pixel
Résumé

Dans le domaine de la compression vidéo, la quête d’une qualité améliorée à des débits plus faibles demeure un objectif persistant. Les avancées récentes ont mis en évidence le potentiel des Représentations Neurales Implicites (INR) en tant qu’alternative prometteuse aux méthodes traditionnelles basées sur les transformations. Les INR vidéo peuvent être grossièrement classées en deux catégories selon la structure des sorties du réseau : les méthodes par cadre (frame-wise) et les méthodes par pixel (pixel-wise). Bien que les méthodes par pixel soient plus adaptées au suréchantillonnage et à la parallélisation, les approches par cadre ont démontré des performances supérieures. Nous introduisons CoordFlow, une nouvelle INR par pixel pour la compression vidéo. Ce modèle atteint des résultats de pointe par rapport aux autres INR par pixel, tout en offrant des performances équivalentes à celles des techniques les plus avancées par cadre. La méthode repose sur la séparation de l’information visuelle en couches visuellement cohérentes, chacune représentée par un réseau dédié qui compense le mouvement propre à cette couche. L’intégration de ces couches donne en outre un segmentage non supervisé de la séquence vidéo. Les trajectoires de mouvement des objets sont exploitées de manière implicite pour compenser les redondances visuelles-temporelles. En outre, la méthode proposée offre naturellement des capacités de suréchantillonnage vidéo, de stabilisation, de remplissage (inpainting) et de suppression de bruit.

CoordFlow : Flux de coordonnées pour une représentation vidéo neuronale par pixel | Articles de recherche récents | HyperAI