DSNet : Un réseau détecter-résumer flexible pour la synthèse vidéo
Dans cet article, nous proposons un cadre de synthèse vidéo supervisée appelé DSNet (Detect-to-Summarize network). Notre DSNet inclut des variantes basées sur des ancres et des variantes sans ancre. La méthode basée sur les ancres génère des propositions temporelles d’intérêt afin de déterminer et localiser les contenus représentatifs des séquences vidéo, tandis que la méthode sans ancre élimine les propositions temporelles prédéfinies et prédit directement les scores d’importance et les emplacements des segments. Contrairement aux méthodes supervisées existantes de synthèse vidéo, qui modélisent la synthèse comme un problème de régression sans contraintes de cohérence et d’intégrité temporelles, notre cadre de détection d’intérêt constitue la première tentative d’exploiter la cohérence temporelle via une formulation de détection d’intérêt temporel. Plus précisément, dans l’approche basée sur les ancres, nous proposons d’abord un échantillonnage dense de propositions d’intérêt temporelles avec des intervalles multi-échelles, capables de s’adapter aux variations de durée des événements d’intérêt, puis extrayons leurs caractéristiques temporelles à longue portée pour la régression de la localisation des propositions d’intérêt et la prédiction de leur importance. Notamment, des segments positifs et négatifs sont attribués afin de garantir l’exactitude et la complétude des synthèses générées. Dans l’approche sans ancre, nous atténuons les inconvénients des propositions temporelles en prédisant directement les scores d’importance des trames vidéo et les emplacements des segments. En particulier, le cadre de détection d’intérêt peut être facilement intégré à des méthodes supervisées de synthèse vidéo existantes. Nous évaluons les approches basées sur les ancres et sans ancre sur les jeux de données SumMe et TVSum. Les résultats expérimentaux confirment clairement l’efficacité des deux approches.