Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Einfacheres Malen als Denken: Können Text-zu-Bild-Modelle die Bühne bereiten, aber nicht das Spiel leiten?

UniVerse-1: Unified Audio-Video Generation durch Stitching von Experten































Einfacheres Malen als Denken: Können Text-zu-Bild-Modelle die Bühne bereiten, aber nicht das Spiel leiten?

UniVerse-1: Unified Audio-Video Generation durch Stitching von Experten






























Wie gut sind Grundmodelle bei schrittweiser verkörperte Schlussfolgerung?
SpikingBrain-Technischer Bericht: Spiking Brain-inspirierte große Modelle
SAGE: Ein realistischer Benchmark für das semantische Verständnis
WAVECLIP: Wellenleitertokenisierung für adaptiv-auflösendes CLIP
EmbeddingGemma: Leistungsstarke und leichtgewichtige Textdarstellungen
Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO
Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive
SIM-CoT: Supervised Implicit Chain-of-Thought
SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?
Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer
Ein N-Plus-1 GPT-Agent zur kritischen Lösung von Problemen der mechanischen Ingenieurwissenschaft
Memory-QA: Beantwortung von Erinnerungsfragen basierend auf multimodalen Erinnerungen
MAPO: Gemischte Vorteils-Politik-Optimierung
Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung
Verstärkendes Lernen auf vortrainierten Daten
Benötigen Sie propriozeptive Zustände in visuomotorischen Politiken?
Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR
GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem
Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen
MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE
ARE: Skalierung von Agentenumgebungen und -bewertungen
DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess
TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs
OnePiece: Einbringung von Kontextingenieurwesen und Schlussfolgerung in ein industrielles Kaskaden-Ranking-System
OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle
LIMI: Weniger ist mehr für Agentur
Ein modulares Fusions-Neuronales-Netzwerk-Ansatz zur effizienten Vorhersage von Multi-Metall-Bindungsstellen in Proteinsequenzen
IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie
Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen
Ein mehrskaliger graphischer neuronaler Prozess mit cross-drug Co-Attention zur Vorhersage von Arzneimittelwechselwirkungen
Wie gut sind Grundmodelle bei schrittweiser verkörperte Schlussfolgerung?
SpikingBrain-Technischer Bericht: Spiking Brain-inspirierte große Modelle
SAGE: Ein realistischer Benchmark für das semantische Verständnis
WAVECLIP: Wellenleitertokenisierung für adaptiv-auflösendes CLIP
EmbeddingGemma: Leistungsstarke und leichtgewichtige Textdarstellungen
Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO
Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive
SIM-CoT: Supervised Implicit Chain-of-Thought
SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?
Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer
Ein N-Plus-1 GPT-Agent zur kritischen Lösung von Problemen der mechanischen Ingenieurwissenschaft
Memory-QA: Beantwortung von Erinnerungsfragen basierend auf multimodalen Erinnerungen
MAPO: Gemischte Vorteils-Politik-Optimierung
Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung
Verstärkendes Lernen auf vortrainierten Daten
Benötigen Sie propriozeptive Zustände in visuomotorischen Politiken?
Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR
GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem
Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen
MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE
ARE: Skalierung von Agentenumgebungen und -bewertungen
DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess
TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs
OnePiece: Einbringung von Kontextingenieurwesen und Schlussfolgerung in ein industrielles Kaskaden-Ranking-System
OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle
LIMI: Weniger ist mehr für Agentur
Ein modulares Fusions-Neuronales-Netzwerk-Ansatz zur effizienten Vorhersage von Multi-Metall-Bindungsstellen in Proteinsequenzen
IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie
Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen
Ein mehrskaliger graphischer neuronaler Prozess mit cross-drug Co-Attention zur Vorhersage von Arzneimittelwechselwirkungen