Apprentissage rapide de propositions d'actions temporelles via générateur dense de bornes

La génération de propositions d’actions temporelles reste un problème très difficile, dont la principale difficulté réside dans la prédiction de bornes de propositions temporelles précises ainsi que d’une confiance fiable en l’action sur des vidéos réelles longues et non coupées. Dans cet article, nous proposons un cadre efficace et unifié pour générer des propositions d’actions temporelles, nommé Dense Boundary Generator (DBG), qui s’inspire des méthodes sensibles aux frontières et met en œuvre une classification des frontières ainsi qu’une régression de la complétude des actions pour des propositions densément réparties. Plus précisément, DBG se compose de deux modules : la classification des frontières temporelles (TBC) et la régression de la complétude sensible à l’action (ACR). La TBC vise à produire deux cartes de confiance des frontières temporelles à partir de caractéristiques à bas niveau issues de deux flux, tandis que l’ACR est conçue pour générer une carte de score de complétude d’action à partir de caractéristiques à haut niveau sensibles à l’action. En outre, nous introduisons un réseau BaseNet à double flux (DSB) pour encoder les informations RGB et les flux optiques, ce qui permet de capturer efficacement des caractéristiques discriminantes des frontières et de l’action. Des expériences étendues sur les benchmarks populaires ActivityNet-1.3 et THUMOS14 démontrent l’avantage de DBG par rapport aux générateurs de propositions d’état de l’art (par exemple, MGG et BMN). Le code source sera rendu disponible à la publication.