Utilisation des hallucinations pour réduire la dépendance manuelle aux invites dans la segmentation à partir d'invites

La segmentation guidée par des prompts (promptable segmentation) nécessite généralement des prompts manuels spécifiques à chaque instance pour guider la segmentation de chaque objet souhaité. Pour minimiser ce besoin, une segmentation guidée par des prompts génériques a été introduite, utilisant un seul prompt générique pour segmenter diverses images d'objets différents dans la même tâche. Les méthodes actuelles emploient des modèles linguistiques multimodaux à grande échelle (Multimodal Large Language Models, MLLMs) pour déduire des prompts détaillés et spécifiques à chaque instance à partir d'un prompt générique, afin d'améliorer la précision de la segmentation. L'efficacité de cette segmentation dépend fortement de la précision de ces prompts dérivés. Cependant, les MLLMs sont souvent sujets aux hallucinations lors du raisonnement, entraînant des prompts inexactes. Alors que les méthodes existantes se concentrent sur l'élimination des hallucinations pour améliorer le modèle, nous soutenons que les hallucinations des MLLMs peuvent révéler des informations contextuelles précieuses lorsqu'elles sont correctement exploitées, car elles représentent une connaissance à grande échelle pré-entraînée au-delà des images individuelles.Dans cet article, nous utilisons les hallucinations pour extraire des informations liées à la tâche à partir des images et vérifier leur précision afin d'améliorer la précision des prompts générés. Plus précisément, nous présentons un cadre de génération itérative Prompt-Mask Cycle (ProMaC) comprenant un générateur de prompts et un générateur de masques. Le générateur de prompts utilise une chaîne de pensée multi-échelle, initialement explorant les hallucinations pour extraire une connaissance contextuelle étendue sur une image de test. Ces hallucinations sont ensuite réduites pour formuler des prompts spécifiques à chaque instance avec plus de précision, dirigeant le générateur de masques vers la production de masques cohérents avec les sémantiques de la tâche grâce à l'alignement sémantique des masques. Les masques générés induisent itérativement le générateur de prompts à se concentrer davantage sur les zones pertinentes de l'image en relation avec la tâche et à réduire les hallucinations non pertinentes, aboutissant ainsi conjointement à des prompts et des masques meilleurs.Des expériences menées sur 5 bancs d'essai démontrent l'efficacité du ProMaC. Le code est disponible sur https://lwpyh.github.io/ProMaC/.