Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

TaskCraft: Automatisierte Generierung von agentialen Aufgaben

Warten wir nicht länger! Die Entfernung von Denk-Token verbessert die Rechengeschwindigkeit.































TaskCraft: Automatisierte Generierung von agentialen Aufgaben

Warten wir nicht länger! Die Entfernung von Denk-Token verbessert die Rechengeschwindigkeit.






























Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos
DeepResearch Bench: Eine umfassende Benchmark für Deep Research Agenten
Erste Prüfung der Wissenschaftler: Untersuchung der kognitiven Fähigkeiten von MLLM durch Wahrnehmung, Verstehen und Schlussfolgerung
MiniMax-M1: Effizientes Skalieren der Rechenleistung zur Laufzeit mit Lightning Attention
Jenseits homogener Aufmerksamkeit: Speichereffiziente LLMs durch Fourier-approximierten KV-Cache
Ein hochwertiger Datensatz und eine zuverlässige Bewertung für die verzahnte Bild-Text-Generierung
SwS: Selbstbewusste Schwachstellen-getriebene Problemerzeugung im Reinforcement Learning für LLM-Reasoning
LiveCodeBench Pro: Wie beurteilen Olympiademedaille-Gewinner LLMs im Wettbewerbsprogrammieren?
Die Diffusionsdualität
Effektives Red-Teaming von regelkonformen Agenten
Ausrichtung von Neubildungen von Bildern und Geometrie durch Kreuzmodalen Aufmerksamkeitstransfer
VRBench: Eine Benchmark für mehrstufiges Schließen in langen narrativen Videos
AniMaker: Automatisierte Mehragenten-Animationsgeschichtenerzählung mit MCTS-gesteuerter Clip-Erstellung
Textbewusste Bildrestauration mit Diffusionsmodellen
Magistral
SWE-Factory: Ihre automatisierte Fabrik für Trainingsdaten zur Lösung von Problemen und Bewertungsbenchmarks
ReasonMed: Ein 370K Mehragenten-Generierter Datensatz zur Förderung der Medizinischen Schlussfolgerung
Auto-Regressiv vs. Flow-Matching: Eine vergleichende Studie der Modellierungsparadigmen für die Text-zu-Musik-Generierung
SeerAttention-R: Sparsame Aufmerksamkeitsanpassung für lange Schlussfolgerungen
PlayerOne: Egozentrischer Welt-Simulator
ComfyUI-R1: Erkundung von Schließungsmodellen für die Workflow-Generierung
Autoregressive Adversarial Post-Training für die Echtzeit-Interaktive Videoerstellung
Konfidenz ist alles, was du brauchst: Few-Shot-RL Feinabstimmung von Sprachmodellen
Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams
PhotoMaker: Anpassung realistischer menschlicher Fotos durch gestapelte ID-Embedding
AnyText: Multilingual Visual Text Generation and Editing
DeepSeek-Prover-V1.5: Die Nutzung von Beweisassistenten-Feedback für Reinforcement Learning und Monte-Carlo-Baumsuche
LLaVA-OneVision: Einfache visuelle Aufgabenübertragung
Whisper-Flamingo: Integration visueller Merkmale in Whisper für audiovisuelle Spracherkennung und -übersetzung
Meta Pseudo Labels
Ego-R1: Kette-von-Werkzeug-Gedanken für die Analyse ultra-langer egozentrischer Videos
DeepResearch Bench: Eine umfassende Benchmark für Deep Research Agenten
Erste Prüfung der Wissenschaftler: Untersuchung der kognitiven Fähigkeiten von MLLM durch Wahrnehmung, Verstehen und Schlussfolgerung
MiniMax-M1: Effizientes Skalieren der Rechenleistung zur Laufzeit mit Lightning Attention
Jenseits homogener Aufmerksamkeit: Speichereffiziente LLMs durch Fourier-approximierten KV-Cache
Ein hochwertiger Datensatz und eine zuverlässige Bewertung für die verzahnte Bild-Text-Generierung
SwS: Selbstbewusste Schwachstellen-getriebene Problemerzeugung im Reinforcement Learning für LLM-Reasoning
LiveCodeBench Pro: Wie beurteilen Olympiademedaille-Gewinner LLMs im Wettbewerbsprogrammieren?
Die Diffusionsdualität
Effektives Red-Teaming von regelkonformen Agenten
Ausrichtung von Neubildungen von Bildern und Geometrie durch Kreuzmodalen Aufmerksamkeitstransfer
VRBench: Eine Benchmark für mehrstufiges Schließen in langen narrativen Videos
AniMaker: Automatisierte Mehragenten-Animationsgeschichtenerzählung mit MCTS-gesteuerter Clip-Erstellung
Textbewusste Bildrestauration mit Diffusionsmodellen
Magistral
SWE-Factory: Ihre automatisierte Fabrik für Trainingsdaten zur Lösung von Problemen und Bewertungsbenchmarks
ReasonMed: Ein 370K Mehragenten-Generierter Datensatz zur Förderung der Medizinischen Schlussfolgerung
Auto-Regressiv vs. Flow-Matching: Eine vergleichende Studie der Modellierungsparadigmen für die Text-zu-Musik-Generierung
SeerAttention-R: Sparsame Aufmerksamkeitsanpassung für lange Schlussfolgerungen
PlayerOne: Egozentrischer Welt-Simulator
ComfyUI-R1: Erkundung von Schließungsmodellen für die Workflow-Generierung
Autoregressive Adversarial Post-Training für die Echtzeit-Interaktive Videoerstellung
Konfidenz ist alles, was du brauchst: Few-Shot-RL Feinabstimmung von Sprachmodellen
Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams
PhotoMaker: Anpassung realistischer menschlicher Fotos durch gestapelte ID-Embedding
AnyText: Multilingual Visual Text Generation and Editing
DeepSeek-Prover-V1.5: Die Nutzung von Beweisassistenten-Feedback für Reinforcement Learning und Monte-Carlo-Baumsuche
LLaVA-OneVision: Einfache visuelle Aufgabenübertragung
Whisper-Flamingo: Integration visueller Merkmale in Whisper für audiovisuelle Spracherkennung und -übersetzung
Meta Pseudo Labels