Datum

vor einem Monat

Organisation

Paper-URL

2605.00416

Tags

Künstliche Intelligenz

Körperliche Intelligenz

Verstärkendes Lernen

Maschinelles Lernen

Tiefes Lernen

Das Konzept des Lernens während des Einsatzes (Learning While Deploying, LWD) wurde 2026 von Forschern des Shanghai Institute for Innovation, von AIZ Robotics und der Columbia University vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in einem Fachartikel veröffentlicht. Lernen während des Einsatzes: Reinforcement Learning im Flottenmaßstab für generalistische Roboterstrategien .

LWD ist ein skalierbares Framework, das den Einsatz großer Roboterflotten mit Offline-zu-Online-Reinforcement-Learning kombiniert. Es adressiert primär die Herausforderungen von „Verteilungsverschiebung und Long-Tail-Fehlern“ in allgemeinen Bild-Sprache-Aktions-Modellen (VLA), die Aufgaben in komplexen realen Umgebungen ausführen, da sie ausschließlich auf offline vortrainierten Daten basieren. Dieses Framework führt Distributed Implicit Value Learning (DIVL) und Q-Learning basierend auf adjoint matching (QAM) ein, um kontinuierlich Daten aus autonomen Roboterinteraktionen und menschlichen Eingriffen in realen Umgebungen zu aggregieren. Dies ermöglicht eine stabile Iteration des Policy-Modells, ohne vom tatsächlichen Anwendungsszenario abzuweichen. Forschungsergebnisse zeigen, dass LWD den durch spärliche Belohnungen verursachten Lernengpass effektiv überwindet und die Anpassungsfähigkeit und Generalisierungsfähigkeit von Allzweckmodellen in verschiedenen realen physikalischen Umgebungen signifikant verbessert. In acht komplexen, realweltlichen Szenarien, darunter das Einräumen von Supermarktregalen, das Aufbrühen von Tee und das Mixen von Cocktails, erreichte ein einziges universelles Policy-Modell eine durchschnittliche Erfolgsquote von bis zu 951 TP3T und reduzierte die Ausführungszeit von Langzeitaufgaben signifikant.

Verwandt Wiki

Föderiertes Lernen

Ein dezentraler Ansatz für maschinelles Lernen, der die Trainingsdaten auf einem lokalen Gerät speichert und ein gemeinsames globales Modell trainiert, indem nur lokal berechnete Modellaktualisierungen aggregiert werden.

vor 2 Monaten

Weltaktionsmodell WAM

WAM ist eine neue KI-Grundlagenmodellarchitektur für die Bereiche verkörperte Intelligenz und Robotik.

vor einem Monat

Geführte Gedankenverstärkung

GTR kann das Modelldenken in komplexen visuellen Umgebungen steuern und einen „Zusammenbruch des Gehirns“ verhindern.

vor 2 Monaten

Theorie Des Raumes

Die Raumtheorie bezeichnet den Rahmen für die Fähigkeit eines intelligenten Agenten, räumliche Vorstellungen in einer Umgebung mit unvollständigen Informationen durch aktive Erkundung zu konstruieren, zu aktualisieren und zu nutzen.

vor 2 Monaten

Dichter Retriever

Die dichte Suchmaschine ist dafür verantwortlich, aus einer riesigen Dokumentenbibliothek schnell die für die Suchanfrage relevantesten Abschnitte zu finden und ist die zentrale Grundlage des Systems zur Generierung von Suchverbesserungen.

vor 2 Monaten

Peak-Return Greedy Slicing

PRGS verbessert die Fähigkeit von Offline-Reinforcement-Learning-Modellen, hochbelohnende Erfahrungen miteinander zu verknüpfen, erheblich.

vor 2 Monaten

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

Es löst effektiv die wichtigsten Herausforderungen bei der sicheren Ausrichtung von LVLM.

vor 3 Monaten

iSeal-Fingerabdruckerkennungsmethode

iSeal erzielt eine Fingerabdruck-Erfolgsrate (FSR) von 100% gegen mehr als 10 Angriffe auf 12 LLMs.

vor 3 Monaten

Zerlegter Vorwärtspass (DePass)

DePass wird verwendet, um das Transformer-Modell durch Zerlegung des Vorwärtsdurchlaufs zu interpretieren.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Datum

vor einem Monat

Organisation

Paper-URL

2605.00416

Verwandt Wiki

Föderiertes Lernen

vor 2 Monaten

Weltaktionsmodell WAM

WAM ist eine neue KI-Grundlagenmodellarchitektur für die Bereiche verkörperte Intelligenz und Robotik.

vor einem Monat

Geführte Gedankenverstärkung

GTR kann das Modelldenken in komplexen visuellen Umgebungen steuern und einen „Zusammenbruch des Gehirns“ verhindern.

vor 2 Monaten

Theorie Des Raumes

vor 2 Monaten

Dichter Retriever

vor 2 Monaten

Peak-Return Greedy Slicing

PRGS verbessert die Fähigkeit von Offline-Reinforcement-Learning-Modellen, hochbelohnende Erfahrungen miteinander zu verknüpfen, erheblich.

vor 2 Monaten

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

Es löst effektiv die wichtigsten Herausforderungen bei der sicheren Ausrichtung von LVLM.

vor 3 Monaten

iSeal-Fingerabdruckerkennungsmethode

iSeal erzielt eine Fingerabdruck-Erfolgsrate (FSR) von 100% gegen mehr als 10 Angriffe auf 12 LLMs.

vor 3 Monaten

Zerlegter Vorwärtspass (DePass)

DePass wird verwendet, um das Transformer-Modell durch Zerlegung des Vorwärtsdurchlaufs zu interpretieren.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Lernen Während Der Implementierung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lernen Während Der Implementierung

Verwandt Wiki

Föderiertes Lernen

Weltaktionsmodell WAM

Geführte Gedankenverstärkung

Theorie Des Raumes

Dichter Retriever

Peak-Return Greedy Slicing

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

iSeal-Fingerabdruckerkennungsmethode

Zerlegter Vorwärtspass (DePass)

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lernen Während Der Implementierung

Verwandt Wiki

Föderiertes Lernen

Weltaktionsmodell WAM

Geführte Gedankenverstärkung

Theorie Des Raumes

Dichter Retriever

Peak-Return Greedy Slicing

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

iSeal-Fingerabdruckerkennungsmethode

Zerlegter Vorwärtspass (DePass)

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Wiki

Föderiertes Lernen

Weltaktionsmodell WAM

Geführte Gedankenverstärkung

Theorie Des Raumes

Dichter Retriever

Peak-Return Greedy Slicing

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

iSeal-Fingerabdruckerkennungsmethode

Zerlegter Vorwärtspass (DePass)

Verwandt Wiki

Föderiertes Lernen

Weltaktionsmodell WAM

Geführte Gedankenverstärkung

Theorie Des Raumes

Dichter Retriever

Peak-Return Greedy Slicing

Sicherheitsvergleichsmethode: Tief Ausgerichtete Visuelle Sicherheitshinweise

iSeal-Fingerabdruckerkennungsmethode

Zerlegter Vorwärtspass (DePass)