Command Palette
Search for a command to run...
Papers
Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Skywork-Reward-V2: Skalierung der Präferenzdaten-Kuration durch menschliche-AI-Synergie

LangScene-X: Rekonstruiere generalisierbare 3D sprachgekoppelte Szenen mit TriMap-Videos-Diffusion































Skywork-Reward-V2: Skalierung der Präferenzdaten-Kuration durch menschliche-AI-Synergie

LangScene-X: Rekonstruiere generalisierbare 3D sprachgekoppelte Szenen mit TriMap-Videos-Diffusion






























Denken mit Bildern für multimodales Schließen: Grundlagen, Methoden und zukünftige Grenzen
WebSailor: Die Navigation übermenschlicher Schlussfolgerung für Web-Agenten
Künstliche Intelligenz Forschungsagenten für maschinelles Lernen: Suche, Exploration und Verallgemeinerung im MLE-Benchmark
Lokalitätsbewusstes paralleles Decodieren für effiziente autoregressive Bildgenerierung
FreeMorph: Tuning-freies generalisiertes Bildmorphing mit Diffusionsmodell
Eine Übersicht über Vision-Sprache-Aktion-Modelle: Eine Perspektive der Aktionstokenisierung
Tiefe unter beliebigen Bedingungen
LongAnimation: Langfristige Animationsgenerierung mit dynamischem global-lokalen Gedächtnis
Kwai Keye-VL Technischer Bericht
Eine Übersicht über Vision-Sprache-Aktion-Modelle für autonome Fahrzeuge
MoCa: Modality-bewusstes kontinuierliches Vortraining verbessert bidirektionale multimodale Einbettungen
FreeLong++: Trainingsfreie Generierung langer Videos durch Multiband-Spektralfusion
Denken über Token hinaus: Von brain-inspirierter Intelligenz zu kognitiven Grundlagen für künstliche allgemeine Intelligenz und ihrem gesellschaftlichen Einfluss
Verbessert mathematisches Schließen die allgemeinen Fähigkeiten von LLMs? Verstehen der Übertragbarkeit des LLM-Schließens
SciArena: Eine Offene Evaluierungsplattform für Grundmodelle in Wissenschaftlichen Literaturaufgaben
Holistische Künstliche Intelligenz in der Medizin; verbesserte Leistung und Erklärbarkeit
Entwicklung von Prompts im Kontext: Eine offene, selbstreplizierende Perspektive
SPIRAL: Selbstspiels auf Nullsummenspielen fördert das Denken durch Multi-Agenten-Mehr-Zug-Reinforcement-Learning
Listener-Rewarded Denken in VLMs für Bildpräferenzen
Kalligrapher: Freistil-Textbild-Anpassung
VMoBA: Mischung von Block-Aufmerksamkeit für Video-Diffusionsmodelle
SMMILE: Eine expertengesteuerte Benchmarke für multimodales medizinisches In-Context-Lernen
Das automatisierte LLM-Speedrunning-Benchmark: Reproduktion der NanoGPT-Verbesserungen
Shape-for-Motion: Präzise und konsistente Videobearbeitung mit 3D-Proxy
Von Ideal zu Real: Einheitliche und daten-effiziente dichte Vorhersage für realweltliche Szenarien
ShotBench: Expertenwissen im Bereich Filmgestaltung in Vision-Sprach-Modellen
XVerse: Konsistente Mehrfach-Subjekt-Steuung von Identität und semantischen Attributen durch DiT-Modulation
Null-Shot-Antikörper-Design in einer 24-Loch-Platte
KinFormer: Generalisierbare dynamische symbolische Regression für katalytische organische Reaktionkinetik
MiCo: Mehrbild-Kontrast für die verstärkende visuelle Schlussfolgerung
Denken mit Bildern für multimodales Schließen: Grundlagen, Methoden und zukünftige Grenzen
WebSailor: Die Navigation übermenschlicher Schlussfolgerung für Web-Agenten
Künstliche Intelligenz Forschungsagenten für maschinelles Lernen: Suche, Exploration und Verallgemeinerung im MLE-Benchmark
Lokalitätsbewusstes paralleles Decodieren für effiziente autoregressive Bildgenerierung
FreeMorph: Tuning-freies generalisiertes Bildmorphing mit Diffusionsmodell
Eine Übersicht über Vision-Sprache-Aktion-Modelle: Eine Perspektive der Aktionstokenisierung
Tiefe unter beliebigen Bedingungen
LongAnimation: Langfristige Animationsgenerierung mit dynamischem global-lokalen Gedächtnis
Kwai Keye-VL Technischer Bericht
Eine Übersicht über Vision-Sprache-Aktion-Modelle für autonome Fahrzeuge
MoCa: Modality-bewusstes kontinuierliches Vortraining verbessert bidirektionale multimodale Einbettungen
FreeLong++: Trainingsfreie Generierung langer Videos durch Multiband-Spektralfusion
Denken über Token hinaus: Von brain-inspirierter Intelligenz zu kognitiven Grundlagen für künstliche allgemeine Intelligenz und ihrem gesellschaftlichen Einfluss
Verbessert mathematisches Schließen die allgemeinen Fähigkeiten von LLMs? Verstehen der Übertragbarkeit des LLM-Schließens
SciArena: Eine Offene Evaluierungsplattform für Grundmodelle in Wissenschaftlichen Literaturaufgaben
Holistische Künstliche Intelligenz in der Medizin; verbesserte Leistung und Erklärbarkeit
Entwicklung von Prompts im Kontext: Eine offene, selbstreplizierende Perspektive
SPIRAL: Selbstspiels auf Nullsummenspielen fördert das Denken durch Multi-Agenten-Mehr-Zug-Reinforcement-Learning
Listener-Rewarded Denken in VLMs für Bildpräferenzen
Kalligrapher: Freistil-Textbild-Anpassung
VMoBA: Mischung von Block-Aufmerksamkeit für Video-Diffusionsmodelle
SMMILE: Eine expertengesteuerte Benchmarke für multimodales medizinisches In-Context-Lernen
Das automatisierte LLM-Speedrunning-Benchmark: Reproduktion der NanoGPT-Verbesserungen
Shape-for-Motion: Präzise und konsistente Videobearbeitung mit 3D-Proxy
Von Ideal zu Real: Einheitliche und daten-effiziente dichte Vorhersage für realweltliche Szenarien
ShotBench: Expertenwissen im Bereich Filmgestaltung in Vision-Sprach-Modellen
XVerse: Konsistente Mehrfach-Subjekt-Steuung von Identität und semantischen Attributen durch DiT-Modulation
Null-Shot-Antikörper-Design in einer 24-Loch-Platte
KinFormer: Generalisierbare dynamische symbolische Regression für katalytische organische Reaktionkinetik
MiCo: Mehrbild-Kontrast für die verstärkende visuelle Schlussfolgerung