Réseau de flux coopératif pour une représentation discriminative des actions

Le modèle de flux spatio-temporel a connu un grand succès dans la reconnaissance d'actions vidéo. La plupart des travaux existants portent davantage d'attention à la conception de méthodes efficaces de fusion de caractéristiques, qui entraînent le modèle à deux flux de manière séparée. Cependant, il est difficile d'assurer la discriminabilité et d'explorer les informations complémentaires entre les différents flux dans les travaux actuels. Dans ce travail, nous proposons un nouveau réseau coopératif inter-flux qui examine l'information conjointe dans plusieurs modalités différentes. L'extraction des caractéristiques par les réseaux de flux spatio-temporels conjoints est réalisée par une méthode d'apprentissage de bout en bout. Elle extrait cette information complémentaire de différentes modalités à partir d'un bloc de connexion, visant à explorer les corrélations entre les caractéristiques des différents flux. De plus, contrairement au ConvNet conventionnel qui apprend des caractéristiques profondes séparables avec une seule perte de cross-entropie, notre modèle proposé renforce la puissance discriminante des caractéristiques apprises en profondeur et réduit la disparité indésirable des modalités en optimisant conjointement une contrainte de classement modale et une perte de cross-entropie pour les modalités homogènes et hétérogènes. La contrainte de classement modale constitue un plongement discriminatif intra-modalité et une contrainte triplet inter-modalité, réduisant ainsi les variations intra-modales et inter-modales des caractéristiques. Les expériences sur trois jeux de données de référence montrent que, grâce à la coopération entre l'extraction des caractéristiques d'apparence et du mouvement, notre méthode peut atteindre des performances équivalentes ou supérieures aux résultats existants.