HyperAIHyperAI

Command Palette

Search for a command to run...

Interpolation de trames vidéo avec Transformer

Liying Lu Ruizheng Wu Huaijia Lin Jiangbo Lu Jiaya Jia

Résumé

L’interpolation de trames vidéo (VFI), dont l’objectif est de synthétiser des trames intermédiaires dans une séquence vidéo, a connu des progrès significatifs ces dernières années grâce au développement des réseaux de convolution profonds. Les méthodes existantes fondées sur les réseaux de convolution rencontrent généralement des difficultés à traiter des mouvements importants, en raison de la nature locale des opérations de convolution. Pour surmonter cette limitation, nous proposons un cadre novateur qui exploite les modèles Transformer afin de capturer les corrélations à longue portée entre les pixels d’une séquence vidéo. Par ailleurs, notre architecture intègre un mécanisme d’attention original basé sur des fenêtres multi-échelles, dans lequel les fenêtres d’échelles différentes interagissent entre elles. Cette conception permet efficacement d’élargir le champ réceptif et d’agréger des informations à plusieurs échelles. Des expérimentations quantitatives et qualitatives étendues démontrent que notre méthode atteint des résultats de pointe sur diverses bases de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp