HyperAIHyperAI
il y a 16 jours

NODIS : Compréhension des scènes par équations différentielles ordinaires neuronales

Cong Yuren, Hanno Ackermann, Wentong Liao, Michael Ying Yang, Bodo Rosenhahn
NODIS : Compréhension des scènes par équations différentielles ordinaires neuronales
Résumé

L'interprétation sémantique des images constitue un défi majeur en vision par ordinateur. Elle consiste non seulement à détecter tous les objets présents dans une image, mais également à identifier toutes les relations qui les lient. Les objets détectés, leurs étiquettes et les relations découvertes peuvent être utilisés pour construire un graphe de scène, offrant ainsi une interprétation sémantique abstraite de l'image. Dans les travaux antérieurs, les relations étaient identifiées en résolvant un problème d'affectation formulé sous forme de programmes linéaires mixtes-entiers (MILP). Dans ce travail, nous interprétons cette formulation comme une équation différentielle ordinaire (ODE). L'architecture proposée réalise l'inférence de graphe de scène en résolvant une variante neuronale d'une ODE par apprentissage end-to-end. Elle atteint des résultats de pointe sur les trois tâches de référence : génération de graphe de scène (SGGen), classification (SGCls) et détection de relations visuelles (PredCls) sur le benchmark Visual Genome.

NODIS : Compréhension des scènes par équations différentielles ordinaires neuronales | Articles de recherche récents | HyperAI