HyperAIHyperAI
il y a 11 jours

Détection efficace de scènes de film à l’aide de transformateurs à espace d’état

Md Mohaiminul Islam, Mahmudul Hasan, Kishan Shamsundar Athrey, Tony Braskich, Gedas Bertasius
Détection efficace de scènes de film à l’aide de transformateurs à espace d’état
Résumé

La capacité à distinguer entre différentes scènes de film est essentielle pour comprendre le déroulement narratif d’un film. Toutefois, la détection précise des scènes de film s’avère souvent difficile, car elle exige la capacité à raisonner sur des segments vidéo très longs. Cela contraste avec la plupart des modèles existants de reconnaissance vidéo, conçus principalement pour une analyse à courte portée. Ce travail propose un modèle State-Space Transformer capable d’extraire efficacement les dépendances présentes dans les vidéos de film longues, afin d’assurer une détection précise des scènes. Notre modèle, nommé TranS4mer, repose sur un nouveau bloc de construction S4A, qui combine les avantages des couches à séquence d’état structurées (S4) et des couches d’attention automatique (A). Étant donné une séquence d’images divisée en plans (périodes continues durant lesquelles la position de la caméra reste inchangée), le bloc S4A applique d’abord l’attention automatique pour capturer les dépendances à courte portée au sein d’un même plan. Ensuite, l’opération d’état d’espace du bloc S4A permet d’agréger les indices à longue portée entre plans. Le modèle final TranS4mer, entraînable de manière end-to-end, est obtenu en empilant plusieurs fois ce bloc S4A. Notre modèle TranS4mer surpasser tous les méthodes antérieures sur trois jeux de données de détection de scènes de film — MovieNet, BBC et OVSD — tout en étant deux fois plus rapide et nécessitant trois fois moins de mémoire GPU que les modèles Transformer standards. Nous rendrons disponibles notre code et nos modèles.

Détection efficace de scènes de film à l’aide de transformateurs à espace d’état | Articles de recherche récents | HyperAI