Command Palette
Search for a command to run...
DeViSE : un modèle d’intégration visuelle et sémantique profonde
DeViSE : un modèle d’intégration visuelle et sémantique profonde
Marc'Aurelio Ranzato Jeff Dean Samy Bengio Jon Shlens Greg S. Corrado Andrea Frome Tomas Mikolov
Résumé
Les systèmes modernes de reconnaissance visuelle sont souvent limités dans leur capacité à s'échelonner à un grand nombre de catégories d'objets. Cette limitation s'explique en partie par la difficulté croissante de collecter des données d'apprentissage suffisantes sous forme d'images étiquetées à mesure que le nombre de catégories d'objets augmente. Une solution consiste à tirer parti de données provenant d'autres sources — telles que des données textuelles — à la fois pour entraîner les modèles visuels et pour contraindre leurs prédictions. Dans cet article, nous présentons un nouveau modèle profond d'encodage visuel et sémantique, entraîné pour identifier les objets visuels à l'aide à la fois de données d'images étiquetées et d'informations sémantiques extraites de textes non annotés. Nous démontrons que ce modèle atteint des performances au niveau de l'état de l'art sur le défi de reconnaissance d'objets ImageNet à 1000 classes, tout en commettant des erreurs plus raisonnables du point de vue sémantique. Nous montrons également que l'information sémantique peut être exploitée pour effectuer des prédictions concernant des dizaines de milliers d'étiquettes d'images non observées durant l'apprentissage. La connaissance sémantique améliore ainsi les prédictions « zero-shot » jusqu'à 65 %, atteignant des taux de succès allant jusqu'à 10 % sur des milliers de nouvelles étiquettes jamais vues par le modèle visuel.