OVMR : Reconnaissance à vocabulaire ouvert avec des références multi-modales

Le défi de la reconnaissance à vocabulaire ouvert réside dans le fait que le modèle n’a aucune information préalable sur les nouvelles catégories auxquelles il est appliqué. Les travaux existants ont proposé diverses méthodes pour intégrer des indices de catégorie dans le modèle, par exemple par une fine-tuning en peu d’exemples, ou en fournissant aux modèles vision-langage des noms de catégories ou des descriptions textuelles. Toutefois, la fine-tuning est coûteuse en temps et nuit à la capacité de généralisation du modèle. Les descriptions textuelles peuvent être ambigües et se révéler insuffisantes pour capturer les détails visuels. Ce papier aborde la reconnaissance à vocabulaire ouvert sous un angle différent, en s’appuyant sur des indices multimodaux composés de descriptions textuelles et d’images exemplaires. Notre méthode, nommée OVMR, introduit deux composants innovants afin d’obtenir une intégration plus robuste des indices de catégorie. Un classificateur multimodal est d’abord généré en complétant dynamiquement les descriptions textuelles par des images exemplaires. Un module de raffinement basé sur les préférences est ensuite appliqué pour fusionner les classificateurs unimodaux et multimodaux, dans le but de atténuer les problèmes liés à la qualité médiocre des images exemplaires ou des descriptions textuelles. Le modèle OVMR est un module plug-and-play, fonctionnant efficacement même avec des images exemplaires récupérées aléatoirement sur Internet. Des expériences étendues démontrent les performances prometteuses d’OVMR, qui surpasse les méthodes existantes dans divers scénarios et configurations. Le code source est disponible publiquement à l’adresse suivante : \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR}.