Détection temporelle d'actions faiblement supervisée pour des vidéos à grain fin avec actions atomiques hiérarchiques

La compréhension des actions est entrée dans l'ère de la granularité fine, car la plupart des comportements humains dans la vie réelle ne présentent que de légères différences. Pour détecter ces actions à granularité fine de manière précise et efficace en termes d'étiquetage, nous abordons pour la première fois le problème de la détection temporelle à granularité fine sous supervision faible dans les vidéos. Sans un design soigneux visant à capturer les subtilités entre les actions à granularité fine, les modèles précédents sous supervision faible destinés à la détection d'actions générales ne peuvent pas bien performer dans ce contexte à granularité fine. Nous proposons de modéliser les actions comme des combinaisons d'actions atomiques réutilisables, qui sont automatiquement découvertes à partir des données par regroupement auto-supervisé, afin de saisir tant la communauté que l'individualité des actions à granularité fine. Les actions atomiques apprises, représentées par des concepts visuels, sont ensuite mappées sur des étiquettes d'actions fines et grossières en exploitant la hiérarchie sémantique des étiquettes. Notre approche construit une hiérarchie de représentation visuelle en quatre niveaux : niveau clip, niveau action atomique, niveau classe d'action fine et niveau classe d'action grossière, avec une supervision à chaque niveau. De nombreuses expériences menées sur deux grands ensembles de données vidéo à granularité fine, FineAction et FineGym, montrent l'avantage de notre modèle sous supervision faible proposé pour la détection d'actions à granularité fine, et il atteint des résultats d'état de l'art.Note: - "FineAction" and "FineGym" are proper names of datasets and thus remain unchanged in French.- "Clip level" is translated as "niveau clip," which is a common term used in video processing contexts in French.- "Atomic action level" is translated as "niveau action atomique," maintaining the technical specificity.- "Fine action class level" and "Coarse action class level" are translated as "niveau classe d'action fine" and "niveau classe d'action grossière," respectively, to preserve the hierarchical structure and technical accuracy.