il y a 6 mois

Résumé

La localisation de la manipulation visuelle (VML) — tant pour les images que pour les vidéos — constitue une tâche essentielle en forensic numérique, visant à identifier les régions altérées dans le contenu visuel. Toutefois, les méthodes existantes peinent souvent à généraliser entre différents modes (modalités) et rencontrent des difficultés à traiter efficacement des entrées à haute résolution ou de longue durée.

Nous proposons RelayFormer, une architecture unifiée et modulaire pour la localisation de la manipulation visuelle à la fois sur images et vidéos. En exploitant des unités locales souples et un mécanisme d’attention Global-Local Relay (GLoRA), cette approche permet un traitement évolutif et indépendant de la résolution, tout en offrant une forte capacité de généralisation. Notre cadre s’intègre naturellement aux modèles de base basés sur les Transformers existants, tels que ViT et SegFormer, grâce à des modules d’adaptation légers nécessitant des modifications architecturales minimales, garantissant ainsi la compatibilité sans perturber les représentations préentraînées.

En outre, nous avons conçu un décodeur de masques léger basé sur des requêtes, capable de réaliser une inférence one-shot sur des séquences vidéo avec une complexité linéaire. Des expériences étendues sur plusieurs benchmarks démontrent que notre méthode atteint des performances de localisation de pointe, établissant une nouvelle référence pour la VML évolutrice et indépendante de la modalité. Le code est disponible à l’adresse suivante : this https URL.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Any-to-Any

Segmentation Sémantique

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Any-to-Any

Segmentation Sémantique

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos

Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos

Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos

Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters