Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Optimierung der mehrsprachigen Text-zu-Sprache-Systeme mit Akzenten und Emotionen

VIKI-R: Koordination der körperlichen Zusammenarbeit mehrerer Agenten durch Reinforcement Learning































Optimierung der mehrsprachigen Text-zu-Sprache-Systeme mit Akzenten und Emotionen

VIKI-R: Koordination der körperlichen Zusammenarbeit mehrerer Agenten durch Reinforcement Learning






























PAROAttention: Musterbewusstes Neuanordnen für effiziente dünnbesetzte und quantisierte Aufmerksamkeit in visuellen Generierungsmodellen
Vision-Guided Chunking ist alles, was Sie benötigen: Verbesserung von RAG durch multimodales Dokumentverstehen
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights Übersetzung: Drag-and-Drop LLMs: Zero-Shot Prompt-to-Gewichte
Evolutionsbasierter Caching zur Beschleunigung Ihres standardisierten Diffusionsmodells
RE-IMAGINE: Symbolische Benchmark-Synthese für die Bewertung von Schlussfolgerungen
SonicVerse: Mehrfach-Aufgaben-Lernen für musikalische Merkmalsbeschreibungen
Nicht Alles Ist Verloren: Wiederherstellung von LLM ohne Checkpoints
Sonnenuhr: Eine Familie hochleistungsfähiger Zeitreihen-Grundmodelle
ADRD: LLM-gestütztes autonome Fahren auf Basis regelbasierter Entscheidungssysteme
Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen
Show-o2: Verbesserte einheitliche multimodale Modelle
Reinforcement Learning für die Schließfolgerung von LLMs aus einer interdisziplinären Perspektive erneut betrachtet
Raptor: Skalierbare trainingsfreie Einbettungen für 3D medizinische Volumen unter Verwendung vortrainierter 2D Grundmodelle
EmoNet-Voice: Ein feingranulärer, von Experten verifizierter Benchmark für die Erkennung von Sprachemotionen
VGGT: Visueller Geometrie-Grounding-Transformer
Mehrfach-Codegenerierung durch einstufige Belohnungen
Die Kompositionale Generalisierungsfähigkeit großer Sprachmodelle unter Berücksichtigung der Anweisungsbefolgungsfähigkeit erneut betrachten
Embodied Web Agents: Die Brücke zwischen physischer und digitaler Welt für eine integrierte Agentenintelligenz
Semantisch bewusste Belohnungen für offene R1-Trainingsmethoden in der freien Generierung
BUT-System für die MLC-SLM-Herausforderung
GenRecal: Generierung nach Kalibrierung von großen zu kleinen Vision-Sprachmodellen
ProtoReasoning: Prototypen als Grundlage für generalisierbares Schließen in LLMs
Sekai: Ein Video-Datensatz zur Weltexploration
QFFT, Fragefreies Feinabstimmung für adaptive Schlussfolgerungen
Können LLMs hochwertige Testfälle für Algorithmenprobleme generieren? TestCase-Eval: Eine systematische Bewertung der Fehlerabdeckung und -exposition
AceReason-Nemotron 1.1: Fortschritte in der mathematischen und codierenden Schlussfolgerung durch die Synergie von SFT und RL
Stream-Omni: Simultane multimodale Interaktionen mit einem großen Sprach-Bild-Sprech-Modell
Effiziente medizinische VIE durch Reinforcement Learning
Skalierung der Rechenleistung zur Laufzeit für LLM-Agenten
TaskCraft: Automatisierte Generierung von agentialen Aufgaben
PAROAttention: Musterbewusstes Neuanordnen für effiziente dünnbesetzte und quantisierte Aufmerksamkeit in visuellen Generierungsmodellen
Vision-Guided Chunking ist alles, was Sie benötigen: Verbesserung von RAG durch multimodales Dokumentverstehen
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights Übersetzung: Drag-and-Drop LLMs: Zero-Shot Prompt-to-Gewichte
Evolutionsbasierter Caching zur Beschleunigung Ihres standardisierten Diffusionsmodells
RE-IMAGINE: Symbolische Benchmark-Synthese für die Bewertung von Schlussfolgerungen
SonicVerse: Mehrfach-Aufgaben-Lernen für musikalische Merkmalsbeschreibungen
Nicht Alles Ist Verloren: Wiederherstellung von LLM ohne Checkpoints
Sonnenuhr: Eine Familie hochleistungsfähiger Zeitreihen-Grundmodelle
ADRD: LLM-gestütztes autonome Fahren auf Basis regelbasierter Entscheidungssysteme
Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen
Show-o2: Verbesserte einheitliche multimodale Modelle
Reinforcement Learning für die Schließfolgerung von LLMs aus einer interdisziplinären Perspektive erneut betrachtet
Raptor: Skalierbare trainingsfreie Einbettungen für 3D medizinische Volumen unter Verwendung vortrainierter 2D Grundmodelle
EmoNet-Voice: Ein feingranulärer, von Experten verifizierter Benchmark für die Erkennung von Sprachemotionen
VGGT: Visueller Geometrie-Grounding-Transformer
Mehrfach-Codegenerierung durch einstufige Belohnungen
Die Kompositionale Generalisierungsfähigkeit großer Sprachmodelle unter Berücksichtigung der Anweisungsbefolgungsfähigkeit erneut betrachten
Embodied Web Agents: Die Brücke zwischen physischer und digitaler Welt für eine integrierte Agentenintelligenz
Semantisch bewusste Belohnungen für offene R1-Trainingsmethoden in der freien Generierung
BUT-System für die MLC-SLM-Herausforderung
GenRecal: Generierung nach Kalibrierung von großen zu kleinen Vision-Sprachmodellen
ProtoReasoning: Prototypen als Grundlage für generalisierbares Schließen in LLMs
Sekai: Ein Video-Datensatz zur Weltexploration
QFFT, Fragefreies Feinabstimmung für adaptive Schlussfolgerungen
Können LLMs hochwertige Testfälle für Algorithmenprobleme generieren? TestCase-Eval: Eine systematische Bewertung der Fehlerabdeckung und -exposition
AceReason-Nemotron 1.1: Fortschritte in der mathematischen und codierenden Schlussfolgerung durch die Synergie von SFT und RL
Stream-Omni: Simultane multimodale Interaktionen mit einem großen Sprach-Bild-Sprech-Modell
Effiziente medizinische VIE durch Reinforcement Learning
Skalierung der Rechenleistung zur Laufzeit für LLM-Agenten
TaskCraft: Automatisierte Generierung von agentialen Aufgaben