HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

PaperRegister: Steigerung der flexiblen, feinkörnigen Papier Suche durch hierarchische Registerindizierung

PaperRegister: Steigerung der flexiblen, feinkörnigen Papier Suche durch hierarchische Registerindizierung

Dokumentenverstehen

Natürliche Sprachverarbeitung

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

DINOv3

Multi-Task-Lernen

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL: Selbstsuchende Verstärkungslernverfahren

Verstärkendes Lernen

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

Thymian: Denken Sie über Bilder hinaus

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

Grundlegung mehrsprachiger multimodaler LLMs mit kulturellem Wissen

Visuelle Fragebeantwortung

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2: Ein großflächiges Sprachdatensatz mit hoher Bandbreite

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope: Die Nutzung großer Sprachmodelle zur automatisierten Erkennung kryptographischer Logikschwächen

Retrieval-Augmented Generation

Zhihao Li, Zimo Ji, Tao Zheng, et al.

Medizinisches Graphen-RAG: Ein Schritt hin zu sicheren medizinischen Großsprachmodellen durch graphbasierte abfrageverstärkte Generierung

Retrieval-Augmented Generation

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer: Ihre 3D-Modelle riggen und animieren

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R: Skalierbare sequentielle 3D-Rekonstruktion mit kausalem Transformer

3D-Maschinenvision

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

VORBEREITUNG: Ein Benchmark, der globales Verständnis und Schlussfolgerung über lange Kontexte erfordert

Retrieval-Augmented Generation

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer: Vereinfachung der Zeichentrickproduktion durch generatives Post-Keyframing

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1: Der Weg zur autoregressiven Bildgenerierung mit kontinuierlichen Token in Skalierung

Bildgenerierung

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0: Ein vielseitiges MathBook-System zur Anreizschaffung für visuelles mathematisches Denken

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA: Ein Benchmark für visuelle Fragebeantwortung mit Beobachtung und Schlussfolgerung durch die Masse

Visuelle Fragebeantwortung

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer: Ein einheitlicher lokaler-globaler Aufmerksamkeitsrahmen für skalierbare Lokalisierung von Bild- und Videobearbeitungen

Wen Huang, Jiarui Yang, Tao Dai, et al.

GMF-Drive: Gated Mamba Fusion mit räumlich-awareer BEV-Darstellung für End-to-End-Autonomes Fahren

Jian Wang, Chaokang Jiang, Haitao Xu

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Lin Long, Yichen He, Wentao Ye, et al.

Diffusions-LLMs können schneller als AR-Inferenz über diskrete Diffusion erzwingen

Diffusionsmodell

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld: Dynamisches Multi-Agenten-System mit stabiler Manövrierfähigkeit für robuste Lösung des GAIA-Problems

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board: Ein trainingsfreier Ansatz zur expressiven Erstellung von Storyboards

Bildgenerierung

David Dinkevich, Matan Levy, Omri Avrahami, et al.

Ersatzidentität: Eine leichtgewichtige und plug-and-play-Identitätssteuerung für die Videogenerierung

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1: Hin zu expliziter Lang-CoT-Reasoning in der Molekülentdeckung

Überwachtes Feinabstimmen

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron: Effiziente Modellen für logisches Schlussfolgern

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack: Ein Benchmark für multimodale Bild-/Dokumentenverstehens-Vision-LLMs mit langen Kontexten

Dokumentenverstehen

Visuelle Dokumentenabfrage

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o: Die Kraft synthetischer Bilder basierend auf GPT-4o zur Verbesserung der Bildgenerierung nutzen

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

Virtuelle Färbung von markierungsfreiem Gewebe in der Bildgebungsmassenspektrometrie

Computer Vision

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex: Einheitliche multimodale Codegenerierung durch die Integration von Visueller und Codierungsmodelle

Codegenerierung

Multimodale Darstellung

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch: Ein hierarchisches tiefes Suchframework für Unternehmen, das lokale und Web-Suchen integriert

Retrieval-Augmented Generation

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

Zeit ist eine Eigenschaft: Ausnutzung zeitlicher Dynamik in Diffusions-Sprachmodellen

Diffusionsmodell

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

CharacterShot: Steuerbare und konsistente 4D-Charakteranimation

Junyao Gao, Jiaxing Li, Wenran Liu, et al.

Jenseits von zehn Zugriffen: Freigabe langfristiger agenter Suche mit großskaliger asynchroner RL

Verstärkendes Lernen

Intelligente Fragebeantwortung

Jiaxuan Gao, Wei Fu, Minyang Xie, et al.

PaperRegister: Steigerung der flexiblen, feinkörnigen Papier Suche durch hierarchische Registerindizierung

PaperRegister: Steigerung der flexiblen, feinkörnigen Papier Suche durch hierarchische Registerindizierung

Dokumentenverstehen

Natürliche Sprachverarbeitung

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

DINOv3

Multi-Task-Lernen

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL: Selbstsuchende Verstärkungslernverfahren

Verstärkendes Lernen

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

Thymian: Denken Sie über Bilder hinaus

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

Grundlegung mehrsprachiger multimodaler LLMs mit kulturellem Wissen

Visuelle Fragebeantwortung

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2: Ein großflächiges Sprachdatensatz mit hoher Bandbreite

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope: Die Nutzung großer Sprachmodelle zur automatisierten Erkennung kryptographischer Logikschwächen

Retrieval-Augmented Generation

Zhihao Li, Zimo Ji, Tao Zheng, et al.

Medizinisches Graphen-RAG: Ein Schritt hin zu sicheren medizinischen Großsprachmodellen durch graphbasierte abfrageverstärkte Generierung

Retrieval-Augmented Generation

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer: Ihre 3D-Modelle riggen und animieren

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R: Skalierbare sequentielle 3D-Rekonstruktion mit kausalem Transformer

3D-Maschinenvision

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

VORBEREITUNG: Ein Benchmark, der globales Verständnis und Schlussfolgerung über lange Kontexte erfordert

Retrieval-Augmented Generation

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer: Vereinfachung der Zeichentrickproduktion durch generatives Post-Keyframing

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1: Der Weg zur autoregressiven Bildgenerierung mit kontinuierlichen Token in Skalierung

Bildgenerierung

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0: Ein vielseitiges MathBook-System zur Anreizschaffung für visuelles mathematisches Denken

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA: Ein Benchmark für visuelle Fragebeantwortung mit Beobachtung und Schlussfolgerung durch die Masse

Visuelle Fragebeantwortung

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer: Ein einheitlicher lokaler-globaler Aufmerksamkeitsrahmen für skalierbare Lokalisierung von Bild- und Videobearbeitungen

Wen Huang, Jiarui Yang, Tao Dai, et al.

GMF-Drive: Gated Mamba Fusion mit räumlich-awareer BEV-Darstellung für End-to-End-Autonomes Fahren

Jian Wang, Chaokang Jiang, Haitao Xu

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Lin Long, Yichen He, Wentao Ye, et al.

Diffusions-LLMs können schneller als AR-Inferenz über diskrete Diffusion erzwingen

Diffusionsmodell

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld: Dynamisches Multi-Agenten-System mit stabiler Manövrierfähigkeit für robuste Lösung des GAIA-Problems

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board: Ein trainingsfreier Ansatz zur expressiven Erstellung von Storyboards

Bildgenerierung

David Dinkevich, Matan Levy, Omri Avrahami, et al.

Ersatzidentität: Eine leichtgewichtige und plug-and-play-Identitätssteuerung für die Videogenerierung

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1: Hin zu expliziter Lang-CoT-Reasoning in der Molekülentdeckung

Überwachtes Feinabstimmen

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron: Effiziente Modellen für logisches Schlussfolgern

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack: Ein Benchmark für multimodale Bild-/Dokumentenverstehens-Vision-LLMs mit langen Kontexten

Dokumentenverstehen

Visuelle Dokumentenabfrage

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o: Die Kraft synthetischer Bilder basierend auf GPT-4o zur Verbesserung der Bildgenerierung nutzen

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

Virtuelle Färbung von markierungsfreiem Gewebe in der Bildgebungsmassenspektrometrie

Computer Vision

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex: Einheitliche multimodale Codegenerierung durch die Integration von Visueller und Codierungsmodelle

Codegenerierung

Multimodale Darstellung

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch: Ein hierarchisches tiefes Suchframework für Unternehmen, das lokale und Web-Suchen integriert

Retrieval-Augmented Generation

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

Zeit ist eine Eigenschaft: Ausnutzung zeitlicher Dynamik in Diffusions-Sprachmodellen

Diffusionsmodell

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

CharacterShot: Steuerbare und konsistente 4D-Charakteranimation

Junyao Gao, Jiaxing Li, Wenran Liu, et al.

Jenseits von zehn Zugriffen: Freigabe langfristiger agenter Suche mit großskaliger asynchroner RL

Verstärkendes Lernen

Intelligente Fragebeantwortung

Jiaxuan Gao, Wei Fu, Minyang Xie, et al.

SSRL: Selbstsuchende Verstärkungslernverfahren

Thymian: Denken Sie über Bilder hinaus

Grundlegung mehrsprachiger multimodaler LLMs mit kulturellem Wissen

HiFiTTS-2: Ein großflächiges Sprachdatensatz mit hoher Bandbreite

CryptoScope: Die Nutzung großer Sprachmodelle zur automatisierten Erkennung kryptographischer Logikschwächen

Medizinisches Graphen-RAG: Ein Schritt hin zu sicheren medizinischen Großsprachmodellen durch graphbasierte abfrageverstärkte Generierung

Puppeteer: Ihre 3D-Modelle riggen und animieren

STream3R: Skalierbare sequentielle 3D-Rekonstruktion mit kausalem Transformer

VORBEREITUNG: Ein Benchmark, der globales Verständnis und Schlussfolgerung über lange Kontexte erfordert

ToonComposer: Vereinfachung der Zeichentrickproduktion durch generatives Post-Keyframing

NextStep-1: Der Weg zur autoregressiven Bildgenerierung mit kontinuierlichen Token in Skalierung

We-Math 2.0: Ein vielseitiges MathBook-System zur Anreizschaffung für visuelles mathematisches Denken

COREVQA: Ein Benchmark für visuelle Fragebeantwortung mit Beobachtung und Schlussfolgerung durch die Masse

RelayFormer: Ein einheitlicher lokaler-globaler Aufmerksamkeitsrahmen für skalierbare Lokalisierung von Bild- und Videobearbeitungen

GMF-Drive: Gated Mamba Fusion mit räumlich-awareer BEV-Darstellung für End-to-End-Autonomes Fahren

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Diffusions-LLMs können schneller als AR-Inferenz über diskrete Diffusion erzwingen

AWorld: Dynamisches Multi-Agenten-System mit stabiler Manövrierfähigkeit für robuste Lösung des GAIA-Problems

Story2Board: Ein trainingsfreier Ansatz zur expressiven Erstellung von Storyboards

Ersatzidentität: Eine leichtgewichtige und plug-and-play-Identitätssteuerung für die Videogenerierung

Mol-R1: Hin zu expliziter Lang-CoT-Reasoning in der Molekülentdeckung

Llama-Nemotron: Effiziente Modellen für logisches Schlussfolgern

Document Haystack: Ein Benchmark für multimodale Bild-/Dokumentenverstehens-Vision-LLMs mit langen Kontexten

Echo-4o: Die Kraft synthetischer Bilder basierend auf GPT-4o zur Verbesserung der Bildgenerierung nutzen

Virtuelle Färbung von markierungsfreiem Gewebe in der Bildgebungsmassenspektrometrie

VisCodex: Einheitliche multimodale Codegenerierung durch die Integration von Visueller und Codierungsmodelle

HierSearch: Ein hierarchisches tiefes Suchframework für Unternehmen, das lokale und Web-Suchen integriert

Zeit ist eine Eigenschaft: Ausnutzung zeitlicher Dynamik in Diffusions-Sprachmodellen

CharacterShot: Steuerbare und konsistente 4D-Charakteranimation

Jenseits von zehn Zugriffen: Freigabe langfristiger agenter Suche mit großskaliger asynchroner RL

SSRL: Selbstsuchende Verstärkungslernverfahren

Thymian: Denken Sie über Bilder hinaus

Grundlegung mehrsprachiger multimodaler LLMs mit kulturellem Wissen

HiFiTTS-2: Ein großflächiges Sprachdatensatz mit hoher Bandbreite

CryptoScope: Die Nutzung großer Sprachmodelle zur automatisierten Erkennung kryptographischer Logikschwächen

Medizinisches Graphen-RAG: Ein Schritt hin zu sicheren medizinischen Großsprachmodellen durch graphbasierte abfrageverstärkte Generierung

Puppeteer: Ihre 3D-Modelle riggen und animieren

STream3R: Skalierbare sequentielle 3D-Rekonstruktion mit kausalem Transformer

VORBEREITUNG: Ein Benchmark, der globales Verständnis und Schlussfolgerung über lange Kontexte erfordert

ToonComposer: Vereinfachung der Zeichentrickproduktion durch generatives Post-Keyframing

NextStep-1: Der Weg zur autoregressiven Bildgenerierung mit kontinuierlichen Token in Skalierung

We-Math 2.0: Ein vielseitiges MathBook-System zur Anreizschaffung für visuelles mathematisches Denken

COREVQA: Ein Benchmark für visuelle Fragebeantwortung mit Beobachtung und Schlussfolgerung durch die Masse

RelayFormer: Ein einheitlicher lokaler-globaler Aufmerksamkeitsrahmen für skalierbare Lokalisierung von Bild- und Videobearbeitungen

GMF-Drive: Gated Mamba Fusion mit räumlich-awareer BEV-Darstellung für End-to-End-Autonomes Fahren

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Diffusions-LLMs können schneller als AR-Inferenz über diskrete Diffusion erzwingen

AWorld: Dynamisches Multi-Agenten-System mit stabiler Manövrierfähigkeit für robuste Lösung des GAIA-Problems

Story2Board: Ein trainingsfreier Ansatz zur expressiven Erstellung von Storyboards

Ersatzidentität: Eine leichtgewichtige und plug-and-play-Identitätssteuerung für die Videogenerierung

Mol-R1: Hin zu expliziter Lang-CoT-Reasoning in der Molekülentdeckung

Llama-Nemotron: Effiziente Modellen für logisches Schlussfolgern

Document Haystack: Ein Benchmark für multimodale Bild-/Dokumentenverstehens-Vision-LLMs mit langen Kontexten

Echo-4o: Die Kraft synthetischer Bilder basierend auf GPT-4o zur Verbesserung der Bildgenerierung nutzen

Virtuelle Färbung von markierungsfreiem Gewebe in der Bildgebungsmassenspektrometrie

VisCodex: Einheitliche multimodale Codegenerierung durch die Integration von Visueller und Codierungsmodelle

HierSearch: Ein hierarchisches tiefes Suchframework für Unternehmen, das lokale und Web-Suchen integriert

Zeit ist eine Eigenschaft: Ausnutzung zeitlicher Dynamik in Diffusions-Sprachmodellen

CharacterShot: Steuerbare und konsistente 4D-Charakteranimation

Jenseits von zehn Zugriffen: Freigabe langfristiger agenter Suche mit großskaliger asynchroner RL