Abruf-erweiterte Wahrnehmung
Das Retrieval-Augmented Perception (RAP)-Plugin wurde im März 2025 von einem Team der Nanyang Technological University und der Wuhan University vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in der Arbeit „Retrieval-Augmented Perception: Hochauflösende Bildwahrnehmung trifft auf Visual RAG", diese Arbeit wurde in ICML 2025 aufgenommen und als Spotlight-Paper bewertet.
RAP ist ein Plug-in für hochauflösende Bildwahrnehmung basierend auf der RAG-Technologie, das kein Training erfordert. Es zielt darauf ab, die Leistung von MLLMs bei hochauflösenden Bildwahrnehmungsaufgaben zu verbessern und gleichzeitig den Rechenaufwand zu senken. Dies ermöglicht dem Modell ein besseres Verständnis, Kontextbewusstsein und bessere Denkfähigkeiten in komplexen Umgebungen. Experimentelle Ergebnisse zeigen, dass RAP die Leistung in mehreren hochauflösenden Bild-Benchmarks deutlich verbessert. Beispielsweise verbessert LLaVA-v1.5-13B die Leistung um 43% auf V* Bench und 19% auf HR-Bench.