HyperAIHyperAI

Command Palette

Search for a command to run...

Un système d'IA repère les vidéos truquées même sans visage ou parole modifiée

Dans un contexte où les vidéos manipulées peuvent propager des fausses informations, harceler des individus ou inciter à la violence, des chercheurs de l'Université de Californie à Riverside (UCR) ont développé un système innovant capable de détecter les fausses vidéos, même lorsque les modifications ne concernent pas uniquement le visage. Le projet, intitulé UNITE (Universal Network for Identifying Tampered and synthetic videos), a été mené par Amit Roy-Chowdhury, professeur d'ingénierie électrique et informatique, et Rohit Kundu, doctorant de la même université, en collaboration avec des scientifiques de Google. Leur travail a été publié sur le serveur de prépublications arXiv. UNITE est conçu pour analyser l'ensemble des cadres d'une vidéo, y compris les arrière-plans et les motifs de mouvement, plutôt que se limiter uniquement au visage. Cela en fait l'un des premiers outils capables de repérer des contenus synthétiques ou altérés sans dépendre de la présence d'un visage. Les méthodes de détection actuelles se concentrent souvent sur des modifications faciales, ce qui limite leur efficacité lorsque les images sont entièrement générées par l'IA. Rohit Kundu souligne que les DeepFakes ont évolué et ne sont plus seulement basés sur des échanges de visages. Les modèles génératifs modernes permettent de créer des vidéos entièrement artificielles, incluant visages et arrière-plans. UNITE, grâce à un modèle d'apprentissage automatique basé sur des transformateurs, est capable de repérer des incohérences spatiales et temporelles subtiles, souvent ignorées par les systèmes précédents. Le modèle s'appuie sur un cadre d'IA appelé SigLIP, qui extrait des caractéristiques générales, indépendantes d'une personne ou d'un objet spécifique. Un élément clé du système est la méthode d'entraînement « attention-diversity loss », qui force le modèle à surveiller plusieurs régions visuelles dans chaque cadre, évitant ainsi qu'il se concentre uniquement sur les visages. Cela permet à UNITE de détecter une variété de manipulations, allant des échanges faciaux simples aux vidéos entièrement synthétiques générées sans images réelles. Le système a été présenté lors de la conférence CVPR 2025 à Nashville. Le papier, rédigé par Kundu, décrit l'architecture et les techniques d'entraînement de UNITE. Les co-auteurs incluent des chercheurs de Google, tels que Hao Xiong, Vishal Mohanty et Athula Balachandra. Cette collaboration a permis d'accéder à de grands ensembles de données et à des ressources informatiques nécessaires pour entraîner le modèle sur différents types de contenus synthétiques. Bien que le système soit encore en développement, UNITE pourrait jouer un rôle essentiel dans la lutte contre la désinformation vidéo. Il pourrait être utilisé par les plateformes de réseaux sociaux, les vérificateurs de faits et les rédactions de presse pour identifier les contenus falsifiés avant qu'ils ne deviennent virals. Selon Kundu, « les gens méritent de savoir si ce qu'ils voient est réel. Et à mesure que l'IA devient meilleure pour imiter la réalité, nous devons devenir meilleurs pour révéler la vérité. » Les experts du secteur saluent cette avancée, soulignant que UNITE représente une étape importante dans la détection des contenus multimédias falsifiés. Son approche universelle et son utilisation de méthodes avancées d'apprentissage automatique ouvrent de nouvelles perspectives pour la sécurité numérique.

Liens associés