Récupération-Perception Augmentée
Le plug-in Retrieval-Augmented Perception (RAP) a été proposé par une équipe de l'Université technologique de Nanyang et de l'Université de Wuhan en mars 2025. Les résultats de recherche pertinents ont été publiés dans l'article «Perception augmentée par récupération : la perception d'images haute résolution rencontre le RAG visuel", ce travail a été inclus dans ICML 2025 et a été classé comme un article Spotlight.
RAP est un plug-in de perception d'images haute résolution basé sur la technologie RAG et ne nécessitant aucun apprentissage. Il vise à améliorer les performances des MLLM dans les tâches de perception d'images haute résolution tout en réduisant les coûts de calcul. Cela permet au modèle de renforcer sa compréhension, sa connaissance du contexte et ses capacités de raisonnement dans des environnements complexes. Les résultats expérimentaux montrent que RAP améliore significativement les performances dans plusieurs benchmarks d'images haute résolution. Par exemple, LLaVA-v1.5-13B améliore les performances de 43% sur V* Bench et de 19% sur HR-Bench.