HyperAIHyperAI
il y a 2 mois

HERMES : compréhension à long terme cohérente temporellement avec des épisodes et des sémantiques

Gueter Josmy Faure; Jia-Fong Yeh; Min-Hung Chen; Hung-Ting Su; Shang-Hong Lai; Winston H. Hsu
HERMES : compréhension à long terme cohérente temporellement avec des épisodes et des sémantiques
Résumé

Les recherches existantes traitent souvent les vidéos de longue durée comme des extensions de vidéos courtes, ce qui entraîne plusieurs limitations : une capture insuffisante des dépendances à long terme, un traitement inefficace des informations redondantes et une incapacité à extraire des concepts sémantiques de haut niveau. Pour remédier à ces problèmes, nous proposons une nouvelle approche qui reflète plus précisément la cognition humaine. Cet article présente HERMES : compréhension temporellement cohérente des formes longues avec Épisodes et Sémantique, un modèle qui simule l'accumulation de la mémoire épisodique pour capturer les séquences d'actions et les renforce avec des connaissances sémantiques dispersées tout au long de la vidéo. Notre travail apporte deux contributions majeures : Premièrement, nous développons un Compresseur Épisodique (ECO) qui agrège efficacement les représentations cruciales des niveaux micro à semi-macro, surmontant ainsi le défi des dépendances à long terme. Deuxièmement, nous proposons un Récupérateur Sémantique (SeTR) qui enrichit ces représentations agrégées avec des informations sémantiques en se concentrant sur le contexte plus large, réduisant considérablement la dimensionalité des caractéristiques tout en préservant les informations pertinentes de haut niveau. Cela permet de résoudre les problèmes de redondance et d'extraction insuffisante de concepts de haut niveau. Des expériences étendues montrent que HERMES atteint des performances d'état de l'art sur plusieurs benchmarks d'analyse de vidéos longues dans les configurations zéro-shot et entièrement supervisées.