HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

LEGO: Generierung und Optimierung eines räumlichen Beschleunigers für Tensor-Anwendungen

LEGO: Generierung und Optimierung eines räumlichen Beschleunigers für Tensor-Anwendungen

Yujun Lin, Zhekai Zhang, Song Han

LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz

LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz

Diffusionsmodell

Zixin Yin, Xili Dai, Duomin Wang, et al.

SearchInstruct: Verbesserung der Domänenanpassung durch die Erstellung von anhand der Recherche basierenden Anweisungsdatasets

Überwachtes Feinabstimmen

Retrieval-Augmented Generation

Iman Barati, Mostafa Amiri, Heshaam Faili

Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen

Pranav Pawar, Kavish Shah, Akshat Bhalani, et al.

InternScenes: Ein großflächiges, simulierbares Innenraumszenen-Datensatz mit realistischen Anordnungen

Weipeng Zhong, Peizhou Cao, Yichen Jin, et al.

UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

Verstärkendes Lernen

Zhengxi Lu, Jiabo Ye, Fei Tang, et al.

OmniWorld: Ein mehrdomänen- und multimodales Datensatz für die 4D-Weltenmodellierung

Yang Zhou, Yifan Wang, Jianjun Zhou, et al.

LAVa: Layer-weise Verdrängung des KV-Cache mit dynamischer Budgetzuweisung

Yiqun Shen, Song Yuan, Zhengze Zhang, et al.

Weltmodellierung mit der Integration probabilistischer Strukturen

Klemen Kotar, Wanhee Lee, Rahul Venkatesh, et al.

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen

Jun Zhan, Mingyang Han, Yuxuan Xie, et al.

HANRAG: Heuristische genaue störungssichere abfragende erweiterte Generierung für mehrschrittige Fragebeantwortung

Retrieval-Augmented Generation

Duolin Sun, Dan Yang, Yue Shen, et al.

InfGen: Ein auflösungsunabhängiger Ansatz für skalierbare Bildsynthese

Diffusionsmodell

Bildgenerierung

Tao Han, Wanghan Xu, Junchao Gong, et al.

X-Teil: hochauflösende und strukturkohärente Formzerlegung

Semantische Segmentierung

Xinhao Yan, Jiachen Xu, Yang Li, et al.

Die Illusion der abnehmenden Rendite: Die Messung der Langzeit-Ausführung in großen Sprachmodellen

Akshit Sinha, Arvindh Arun, Shashwat Goel, et al.

IntrEx: Ein Datensatz zum Modellieren von Engagement in Bildungsgesprächen

Xingwei Tan, Mahathi Parvatham, Chiara Gambi, et al.

Youtu-GraphRAG: Vertikal integrierte Agenten für graphbasierte abgerufene komplexe Schlussfolgerungen

Retrieval-Augmented Generation

Junnan Dong, Siyu An, Yifei Yu, et al.

SceneSplat: Szenenverstehen basierend auf Gaussian Splatting mit Vision-Sprache-Vortrainierung

3D-Maschinenvision

Multimodale Darstellung

Yue Li, Qi Ma, Runyi Yang, et al.

Virtuelle Agentenökonomien

Präferenzmodellierung

Nenad Tomasev, Matija Franklin, Joel Z. Leibo, et al.

Zum Verständnis der visuellen Grundlage in visuellen Sprachmodellen

Multimodale Darstellung

Georgios Pantazopoulos, Eda B. Özyiğit

Multimodale Darstellung

Yikang Ding, Jiwen Liu, Wenyuan Zhang, et al.

Machine Learning LM: Fortgesetztes Vortrainieren von Sprachmodellen auf Millionen synthetischer tabellarischer Vorhersageaufgaben skaliert kontextbasiertes maschinelles Lernen

Maschinelles Lernen

Haoyu Dong, Pengkun Zhang, Mingzhe Lu, et al.

EchoX: Eine Annäherung an die Reduzierung der akustisch-semantischen Lücke durch Echotrainings für Sprache-zu-Sprache-LLMs

Yuhao Zhang, Yuhao Du, Zhanchen Dai, et al.

SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

Verstärkendes Lernen

Überwachtes Feinabstimmen

Haozhan Li, Yuxin Zuo, Jiale Yu, et al.

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

Yihao Wang, Pengxiang Ding, Lingxiao Li, et al.

scSiameseClu: Ein Siamese-Clustering-Rahmenwerk zur Interpretation von Einzelzell-RNA-Sequenzierungsdaten

Ping Xu, Zhiyuan Ning, Pengjiang Li, et al.

ST-Raptor: Fragenbeantwortung für halbstrukturierte Tabellen mit Unterstützung durch Sprachmodelle

Intelligente Fragebeantwortung

Zirui Tang, Boyu Niu, Xuanhe Zhou, et al.

OmniSpatial: Ein umfassender Benchmark für räumliches Schließen bei visuellen Sprachmodellen

Mengdi Jia, Zekun Qi, Shaochen Zhang, et al.

Verständnis ökonomischer Kompromisse zwischen menschlichen und KI-Agenten in Verhandlungsspielen

Präferenzmodellierung

Crystal Qian, Kehang Zhu, John Horton, et al.

Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche

Shuocheng Li, Yihao Liu, Silin Du, et al.

Technischer Bericht zu Hunyuan-MT

Mao Zheng, Zheng Li, Bingxin Qu, et al.

P3-SAM: Native 3D-Teilsegmentierung

Computer Vision

Semantische Segmentierung

Changfeng Ma, Yang Li, Xinhao Yan, et al.

AgentGym-RL: Schulung von LLM-Agenten für Entscheidungen mit langer Horizonte durch mehrfach turnbasiertes Verstärkungslernen

Verstärkendes Lernen

Zhiheng Xi, Jixuan Huang, Chenyang Liao, et al.

LEGO: Generierung und Optimierung eines räumlichen Beschleunigers für Tensor-Anwendungen

LEGO: Generierung und Optimierung eines räumlichen Beschleunigers für Tensor-Anwendungen

Yujun Lin, Zhekai Zhang, Song Han

LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz

LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz

Diffusionsmodell

Zixin Yin, Xili Dai, Duomin Wang, et al.

SearchInstruct: Verbesserung der Domänenanpassung durch die Erstellung von anhand der Recherche basierenden Anweisungsdatasets

Überwachtes Feinabstimmen

Retrieval-Augmented Generation

Iman Barati, Mostafa Amiri, Heshaam Faili

Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen

Pranav Pawar, Kavish Shah, Akshat Bhalani, et al.

InternScenes: Ein großflächiges, simulierbares Innenraumszenen-Datensatz mit realistischen Anordnungen

Weipeng Zhong, Peizhou Cao, Yichen Jin, et al.

UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

Verstärkendes Lernen

Zhengxi Lu, Jiabo Ye, Fei Tang, et al.

OmniWorld: Ein mehrdomänen- und multimodales Datensatz für die 4D-Weltenmodellierung

Yang Zhou, Yifan Wang, Jianjun Zhou, et al.

LAVa: Layer-weise Verdrängung des KV-Cache mit dynamischer Budgetzuweisung

Yiqun Shen, Song Yuan, Zhengze Zhang, et al.

Weltmodellierung mit der Integration probabilistischer Strukturen

Klemen Kotar, Wanhee Lee, Rahul Venkatesh, et al.

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen

Jun Zhan, Mingyang Han, Yuxuan Xie, et al.

HANRAG: Heuristische genaue störungssichere abfragende erweiterte Generierung für mehrschrittige Fragebeantwortung

Retrieval-Augmented Generation

Duolin Sun, Dan Yang, Yue Shen, et al.

InfGen: Ein auflösungsunabhängiger Ansatz für skalierbare Bildsynthese

Diffusionsmodell

Bildgenerierung

Tao Han, Wanghan Xu, Junchao Gong, et al.

X-Teil: hochauflösende und strukturkohärente Formzerlegung

Semantische Segmentierung

Xinhao Yan, Jiachen Xu, Yang Li, et al.

Die Illusion der abnehmenden Rendite: Die Messung der Langzeit-Ausführung in großen Sprachmodellen

Akshit Sinha, Arvindh Arun, Shashwat Goel, et al.

IntrEx: Ein Datensatz zum Modellieren von Engagement in Bildungsgesprächen

Xingwei Tan, Mahathi Parvatham, Chiara Gambi, et al.

Youtu-GraphRAG: Vertikal integrierte Agenten für graphbasierte abgerufene komplexe Schlussfolgerungen

Retrieval-Augmented Generation

Junnan Dong, Siyu An, Yifei Yu, et al.

SceneSplat: Szenenverstehen basierend auf Gaussian Splatting mit Vision-Sprache-Vortrainierung

3D-Maschinenvision

Multimodale Darstellung

Yue Li, Qi Ma, Runyi Yang, et al.

Virtuelle Agentenökonomien

Präferenzmodellierung

Nenad Tomasev, Matija Franklin, Joel Z. Leibo, et al.

Zum Verständnis der visuellen Grundlage in visuellen Sprachmodellen

Multimodale Darstellung

Georgios Pantazopoulos, Eda B. Özyiğit

Multimodale Darstellung

Yikang Ding, Jiwen Liu, Wenyuan Zhang, et al.

Machine Learning LM: Fortgesetztes Vortrainieren von Sprachmodellen auf Millionen synthetischer tabellarischer Vorhersageaufgaben skaliert kontextbasiertes maschinelles Lernen

Maschinelles Lernen

Haoyu Dong, Pengkun Zhang, Mingzhe Lu, et al.

EchoX: Eine Annäherung an die Reduzierung der akustisch-semantischen Lücke durch Echotrainings für Sprache-zu-Sprache-LLMs

Yuhao Zhang, Yuhao Du, Zhanchen Dai, et al.

SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

Verstärkendes Lernen

Überwachtes Feinabstimmen

Haozhan Li, Yuxin Zuo, Jiale Yu, et al.

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

Yihao Wang, Pengxiang Ding, Lingxiao Li, et al.

scSiameseClu: Ein Siamese-Clustering-Rahmenwerk zur Interpretation von Einzelzell-RNA-Sequenzierungsdaten

Ping Xu, Zhiyuan Ning, Pengjiang Li, et al.

ST-Raptor: Fragenbeantwortung für halbstrukturierte Tabellen mit Unterstützung durch Sprachmodelle

Intelligente Fragebeantwortung

Zirui Tang, Boyu Niu, Xuanhe Zhou, et al.

OmniSpatial: Ein umfassender Benchmark für räumliches Schließen bei visuellen Sprachmodellen

Mengdi Jia, Zekun Qi, Shaochen Zhang, et al.

Verständnis ökonomischer Kompromisse zwischen menschlichen und KI-Agenten in Verhandlungsspielen

Präferenzmodellierung

Crystal Qian, Kehang Zhu, John Horton, et al.

Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche

Shuocheng Li, Yihao Liu, Silin Du, et al.

Technischer Bericht zu Hunyuan-MT

Mao Zheng, Zheng Li, Bingxin Qu, et al.

P3-SAM: Native 3D-Teilsegmentierung

Computer Vision

Semantische Segmentierung

Changfeng Ma, Yang Li, Xinhao Yan, et al.

AgentGym-RL: Schulung von LLM-Agenten für Entscheidungen mit langer Horizonte durch mehrfach turnbasiertes Verstärkungslernen

Verstärkendes Lernen

Zhiheng Xi, Jixuan Huang, Chenyang Liao, et al.

SearchInstruct: Verbesserung der Domänenanpassung durch die Erstellung von anhand der Recherche basierenden Anweisungsdatasets

Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen

InternScenes: Ein großflächiges, simulierbares Innenraumszenen-Datensatz mit realistischen Anordnungen

UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

OmniWorld: Ein mehrdomänen- und multimodales Datensatz für die 4D-Weltenmodellierung

LAVa: Layer-weise Verdrängung des KV-Cache mit dynamischer Budgetzuweisung

Weltmodellierung mit der Integration probabilistischer Strukturen

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen

HANRAG: Heuristische genaue störungssichere abfragende erweiterte Generierung für mehrschrittige Fragebeantwortung

InfGen: Ein auflösungsunabhängiger Ansatz für skalierbare Bildsynthese

X-Teil: hochauflösende und strukturkohärente Formzerlegung

Die Illusion der abnehmenden Rendite: Die Messung der Langzeit-Ausführung in großen Sprachmodellen

IntrEx: Ein Datensatz zum Modellieren von Engagement in Bildungsgesprächen

Youtu-GraphRAG: Vertikal integrierte Agenten für graphbasierte abgerufene komplexe Schlussfolgerungen

SceneSplat: Szenenverstehen basierend auf Gaussian Splatting mit Vision-Sprache-Vortrainierung

Virtuelle Agentenökonomien

Zum Verständnis der visuellen Grundlage in visuellen Sprachmodellen

Kling-Avatar: Grundlagen multimodaler Anweisungen für die kaskadierte Synthese langdauernder Avatar-Animationen

Machine Learning LM: Fortgesetztes Vortrainieren von Sprachmodellen auf Millionen synthetischer tabellarischer Vorhersageaufgaben skaliert kontextbasiertes maschinelles Lernen

EchoX: Eine Annäherung an die Reduzierung der akustisch-semantischen Lücke durch Echotrainings für Sprache-zu-Sprache-LLMs

SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

scSiameseClu: Ein Siamese-Clustering-Rahmenwerk zur Interpretation von Einzelzell-RNA-Sequenzierungsdaten

ST-Raptor: Fragenbeantwortung für halbstrukturierte Tabellen mit Unterstützung durch Sprachmodelle

OmniSpatial: Ein umfassender Benchmark für räumliches Schließen bei visuellen Sprachmodellen

Verständnis ökonomischer Kompromisse zwischen menschlichen und KI-Agenten in Verhandlungsspielen

Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche

Technischer Bericht zu Hunyuan-MT

P3-SAM: Native 3D-Teilsegmentierung

AgentGym-RL: Schulung von LLM-Agenten für Entscheidungen mit langer Horizonte durch mehrfach turnbasiertes Verstärkungslernen

SearchInstruct: Verbesserung der Domänenanpassung durch die Erstellung von anhand der Recherche basierenden Anweisungsdatasets

Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen

InternScenes: Ein großflächiges, simulierbares Innenraumszenen-Datensatz mit realistischen Anordnungen

UI-S1: Fortschritte bei der GUI-Automatisierung durch semi-online Reinforcement Learning

OmniWorld: Ein mehrdomänen- und multimodales Datensatz für die 4D-Weltenmodellierung

LAVa: Layer-weise Verdrängung des KV-Cache mit dynamischer Budgetzuweisung

Weltmodellierung mit der Integration probabilistischer Strukturen

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen

HANRAG: Heuristische genaue störungssichere abfragende erweiterte Generierung für mehrschrittige Fragebeantwortung

InfGen: Ein auflösungsunabhängiger Ansatz für skalierbare Bildsynthese

X-Teil: hochauflösende und strukturkohärente Formzerlegung

Die Illusion der abnehmenden Rendite: Die Messung der Langzeit-Ausführung in großen Sprachmodellen

IntrEx: Ein Datensatz zum Modellieren von Engagement in Bildungsgesprächen

Youtu-GraphRAG: Vertikal integrierte Agenten für graphbasierte abgerufene komplexe Schlussfolgerungen

SceneSplat: Szenenverstehen basierend auf Gaussian Splatting mit Vision-Sprache-Vortrainierung

Virtuelle Agentenökonomien

Zum Verständnis der visuellen Grundlage in visuellen Sprachmodellen

Kling-Avatar: Grundlagen multimodaler Anweisungen für die kaskadierte Synthese langdauernder Avatar-Animationen

Machine Learning LM: Fortgesetztes Vortrainieren von Sprachmodellen auf Millionen synthetischer tabellarischer Vorhersageaufgaben skaliert kontextbasiertes maschinelles Lernen

EchoX: Eine Annäherung an die Reduzierung der akustisch-semantischen Lücke durch Echotrainings für Sprache-zu-Sprache-LLMs

SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

scSiameseClu: Ein Siamese-Clustering-Rahmenwerk zur Interpretation von Einzelzell-RNA-Sequenzierungsdaten

ST-Raptor: Fragenbeantwortung für halbstrukturierte Tabellen mit Unterstützung durch Sprachmodelle

OmniSpatial: Ein umfassender Benchmark für räumliches Schließen bei visuellen Sprachmodellen

Verständnis ökonomischer Kompromisse zwischen menschlichen und KI-Agenten in Verhandlungsspielen

Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche

Technischer Bericht zu Hunyuan-MT

P3-SAM: Native 3D-Teilsegmentierung

AgentGym-RL: Schulung von LLM-Agenten für Entscheidungen mit langer Horizonte durch mehrfach turnbasiertes Verstärkungslernen