Récupération d'adverbes vidéo avec des plongements adverbe-action compositionnels

La récupération d'adverbes décrivant une action dans une vidéo constitue une étape cruciale vers une compréhension fine des vidéos. Nous proposons un cadre pour la recherche d'adverbes à partir de vidéos (et vice versa) qui aligne les plongements vidéo avec leurs plongements textuels adverbe-action compositionnels correspondants dans un espace de plongement conjoint. Le plongement textuel adverbe-action compositionnel est appris en utilisant un mécanisme de porte résiduelle, ainsi qu'un objectif d'entraînement novateur comprenant des pertes par triplets et une cible de régression. Notre méthode atteint des performances de pointe sur cinq benchmarks récents pour la recherche d'adverbes à partir de vidéos. De plus, nous introduisons des divisions de jeux de données pour évaluer la recherche d'adverbes à partir de vidéos pour des compositions adverbe-action inédites sur des sous-ensembles des jeux de données MSR-VTT Adverbs et ActivityNet Adverbs. Notre cadre proposé surpasses toutes les œuvres antérieures pour la tâche de généralisation consistant à récupérer des adverbes à partir de vidéos pour des compositions adverbe-action inédites. Le code et les divisions de jeux de données sont disponibles à l'adresse https://hummelth.github.io/ReGaDa/.