HyperAIHyperAI

Command Palette

Search for a command to run...

Abruf-erweiterte Wahrnehmung

Datum

vor 5 Monaten

Tags

Das Retrieval-Augmented Perception (RAP)-Plugin wurde im März 2025 von einem Team der Nanyang Technological University und der Wuhan University vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in der Arbeit „Retrieval-Augmented Perception: Hochauflösende Bildwahrnehmung trifft auf Visual RAG", diese Arbeit wurde in ICML 2025 aufgenommen und als Spotlight-Paper bewertet.

RAP ist ein Plug-in für hochauflösende Bildwahrnehmung basierend auf der RAG-Technologie, das kein Training erfordert. Es zielt darauf ab, die Leistung von MLLMs bei hochauflösenden Bildwahrnehmungsaufgaben zu verbessern und gleichzeitig den Rechenaufwand zu senken. Dies ermöglicht dem Modell ein besseres Verständnis, Kontextbewusstsein und bessere Denkfähigkeiten in komplexen Umgebungen. Experimentelle Ergebnisse zeigen, dass RAP die Leistung in mehreren hochauflösenden Bild-Benchmarks deutlich verbessert. Beispielsweise verbessert LLaVA-v1.5-13B die Leistung um 43% auf V* Bench und 19% auf HR-Bench.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Abruf-erweiterte Wahrnehmung | Wiki | HyperAI