Datum

vor 3 Monaten

Organisation

Paper-URL

2503.08525

Tags

Künstliche Intelligenz

Maschinelles Lernen

Tiefes Lernen

Das Guided Thought Reinforcement (GTR)-Framework wurde am 11. Juli 2025 von Forschern der Tsinghua-Universität, von Tencent und der Peking-Universität vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in einem Artikel veröffentlicht. GTR: Geführte Gedankenverstärkung verhindert Gedankenkollaps im RL-basierten VLM-Agententraining .

GTR ist ein einfaches und skalierbares Framework, das automatische Fehlerkorrektur und Reinforcement Learning kombiniert. Es wurde primär entwickelt, um das Problem des „Denkabbruchs“ bei Agenten visueller Sprachmodelle (VLM) zu beheben, die in komplexen visuellen Umgebungen mehrstufige Entscheidungen treffen müssen. Dieser Fehler entsteht durch die alleinige Fokussierung auf Ergebnisbelohnungen. Das Framework führt eine automatische Fehlerkorrektur ein, die das Denkvermögen des Agenten in jedem Schritt des Reinforcement Learnings bewertet und verbessert. Dadurch wird ein simultanes Training von Denken und Handeln ohne aufwendige manuelle Punkt-für-Punkt-Annotation ermöglicht. Forschungsergebnisse zeigen, dass GTR Denkabbrüche effektiv unterdrückt und die Leistung und Generalisierungsfähigkeit von Modellen (wie z. B. LLaVA-7B) in verschiedenen visuellen Umgebungen signifikant verbessert. In komplexen Szenarien wie dem 24-Punkte-Spiel und verkörperten Aufgaben ermöglicht es Modellen, eine 3- bis 5-mal höhere Erfolgsquote als bestehende State-of-the-Art-Modelle mit einer geringeren Anzahl an Parametern zu erreichen.

Verwandt Wiki

Lernen Während Der Implementierung

LWD ist ein auf Flottenebene anwendbares Offline-zu-Online-Reinforcement-Learning-Framework, das es Allzweckrobotern ermöglicht, kontinuierlich Erfahrungen zu sammeln und eine Selbstentwicklung ihrer Strategien zu erreichen.

vor 2 Monaten

Peak-Return Greedy Slicing

PRGS verbessert die Fähigkeit von Offline-Reinforcement-Learning-Modellen, hochbelohnende Erfahrungen miteinander zu verknüpfen, erheblich.

vor 3 Monaten

Optische Zeichenerkennung (OCR)

OCR (Optical Character Recognition) wandelt Text in Bildern in bearbeitbaren Text um und dient als Grundlage für die Digitalisierung von Dokumenten und die automatisierte Informationsgewinnung.

vor 2 Tagen

Dichter Retriever

Die dichte Suchmaschine ist dafür verantwortlich, aus einer riesigen Dokumentenbibliothek schnell die für die Suchanfrage relevantesten Abschnitte zu finden und ist die zentrale Grundlage des Systems zur Generierung von Suchverbesserungen.

vor 3 Monaten

Theorie Des Raumes

Die Raumtheorie bezeichnet den Rahmen für die Fähigkeit eines intelligenten Agenten, räumliche Vorstellungen in einer Umgebung mit unvollständigen Informationen durch aktive Erkundung zu konstruieren, zu aktualisieren und zu nutzen.

vor 3 Monaten

Sprachverbesserung

Die Sprachverbesserung ist eine Technik, die Rauschen und Nachhall unterdrückt, um die Sprachqualität zu verbessern. Sie findet breite Anwendung in der Spracherkennungsvorverarbeitung und bei Hörgeräten.

vor 2 Tagen

Föderiertes Lernen

Ein dezentraler Ansatz für maschinelles Lernen, der die Trainingsdaten auf einem lokalen Gerät speichert und ein gemeinsames globales Modell trainiert, indem nur lokal berechnete Modellaktualisierungen aggregiert werden.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Datum

vor 3 Monaten

Organisation

Paper-URL

2503.08525

Verwandt Wiki

Lernen Während Der Implementierung

vor 2 Monaten

Peak-Return Greedy Slicing

PRGS verbessert die Fähigkeit von Offline-Reinforcement-Learning-Modellen, hochbelohnende Erfahrungen miteinander zu verknüpfen, erheblich.

vor 3 Monaten

Optische Zeichenerkennung (OCR)

OCR (Optical Character Recognition) wandelt Text in Bildern in bearbeitbaren Text um und dient als Grundlage für die Digitalisierung von Dokumenten und die automatisierte Informationsgewinnung.

vor 2 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Geführte Gedankenverstärkung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Geführte Gedankenverstärkung

Verwandt Wiki

Lernen Während Der Implementierung

Peak-Return Greedy Slicing

Optische Zeichenerkennung (OCR)

Dichter Retriever

Theorie Des Raumes

Sprachverbesserung

Föderiertes Lernen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Geführte Gedankenverstärkung

Verwandt Wiki

Lernen Während Der Implementierung

Peak-Return Greedy Slicing

Optische Zeichenerkennung (OCR)

Dichter Retriever

Theorie Des Raumes

Sprachverbesserung

Föderiertes Lernen

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Wiki

Lernen Während Der Implementierung

Peak-Return Greedy Slicing

Optische Zeichenerkennung (OCR)

Dichter Retriever

Theorie Des Raumes

Sprachverbesserung

Föderiertes Lernen

Verwandt Wiki

Lernen Während Der Implementierung

Peak-Return Greedy Slicing

Optische Zeichenerkennung (OCR)

Dichter Retriever

Theorie Des Raumes

Sprachverbesserung

Föderiertes Lernen