HyperAIHyperAI

Command Palette

Search for a command to run...

MINTIME : Détection des deepfakes vidéo à identité multiple et invariante à la taille

Davide Alessandro Coccomini Giorgos Kordopatis Zilos Giuseppe Amato Roberto Caldelli Fabrizio Falchi Symeon Papadopoulos Claudio Gennaro

Résumé

Dans cet article, nous introduisons MINTIME, une méthode de détection des deepfakes vidéo qui capture les anomalies spatiales et temporelles tout en gérant les cas où plusieurs personnes apparaissent dans une même vidéo ainsi que les variations de taille des visages. Les approches précédentes négligent généralement ces informations, soit en utilisant des schémas simples d’agrégation a posteriori (par exemple, une moyenne ou une opération de maximum), soit en ne considérant qu’une seule identité lors de l’inférence (généralement celle de plus grande taille). À l’inverse, la méthode proposée repose sur un modèle Spatio-Temporal TimeSformer combiné à un squelette basé sur un réseau de neurones convolutionnel (CNN) afin de capturer les anomalies spatio-temporelles à partir des séquences faciales de plusieurs identités présentes dans une vidéo. Ceci est réalisé grâce à un mécanisme d’attention consciente de l’identité, qui traite chaque séquence faciale de manière indépendante via une opération de masquage et facilite l’agrégation au niveau de la vidéo. En outre, deux nouvelles embeddings sont introduits : (i) l’embedding positionnel temporellement cohérent, qui encode les informations temporelles de chaque séquence faciale, et (ii) l’embedding de taille, qui encode la taille des visages en tant que rapport par rapport à la taille de la trame vidéo. Ces extensions permettent à notre système de s’adapter particulièrement bien dans des conditions réelles en apprenant efficacement à agréger les informations provenant de plusieurs identités, un aspect généralement ignoré par les méthodes existantes. MINTIME atteint des performances de pointe sur le jeu de données ForgeryNet, avec une amélioration allant jusqu’à 14 % en AUC pour les vidéos contenant plusieurs personnes, et démontre une capacité de généralisation importante dans des scénarios de détection croisée (cross-forgery) et de transfert entre jeux de données (cross-dataset). Le code source est disponible publiquement à l’adresse suivante : https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MINTIME : Détection des deepfakes vidéo à identité multiple et invariante à la taille | Articles | HyperAI