HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Von dem Was zum Warum: Ein Multi-Agentensystem zur evidenzbasierten Schlussfolgerung chemischer Reaktionsbedingungen

Von dem Was zum Warum: Ein Multi-Agentensystem zur evidenzbasierten Schlussfolgerung chemischer Reaktionsbedingungen

Retrieval-Augmented Generation

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

DreamOmni2: Multimodale, anweisungsbasierende Bearbeitung und Generierung

DreamOmni2: Multimodale, anweisungsbasierende Bearbeitung und Generierung

Bildgenerierung

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

VideoCanvas: Einheitliche Video-Vervollständigung aus beliebigen räumlich-zeitlichen Patchen mittels Kontextbedingung

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo: Einheitliches Verstehen, Generieren und Bearbeiten von Videos

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba: Die Neubewertung von Speichermustern in State-Space-Modellen

Natürliche Sprachverarbeitung

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

MM-HELIX: Steigerung der multimodalen langkettigen reflektiven Schlussfolgerung durch eine ganzheitliche Plattform und adaptive hybride Politikoptimierung

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

PromptCoT 2.0: Skalierung der Prompt-Synthese für das Reasoning großer Sprachmodelle

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Extract-0: Ein spezialisiertes Sprachmodell für die Informationsextraktion aus Dokumenten

Überwachtes Feinabstimmen

Dokumentenverstehen

OmniRetarget: interaktionsbewahrende Datengenerierung für humanoiden ganzkörperbasierten Lokomotions- und Szeneninteraktionskontrolle

Verstärkendes Lernen

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Audio- Und Sprachverarbeitung

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Überwachtes Feinabstimmen

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung

Visuelle Fragebeantwortung

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

Lernen von Agenten durch frühe Erfahrungen

Überwachtes Feinabstimmen

Verstärkendes Lernen

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

RLinf-VLA: Ein einheitlicher und effizienter Rahmen für die VLA+RL-Trainingsweise

Verstärkendes Lernen

Multimodale Darstellung

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

SHANKS: Simultane Wahrnehmung und Denken für Sprachmodelle

Audio- Und Sprachverarbeitung

Mensch-Computer-Interaktion

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

Lumina-DiMOO: Ein Omni-Diffusions-Großsprachmodell für die multimodale Generierung und Verständnis

Diffusionsmodell

Yi Xin, Qi Qin, Siqi Luo, et al.

Cache-zu-Cache: Direkte semantische Kommunikation zwischen großen Sprachmodellen

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Ziyuan Huang, DanDan Zheng, Cheng Zou, et al.

Wissenschaftliche Algorithmusentdeckung durch Erweiterung von AlphaEvolve mit tiefgreifender Forschung

Gang Liu, Yihan Zhu, Jie Chen, et al.

ConstraintLLM: Ein neuro-symbolisches Framework für industrielle Constraint-Programmierung

Überwachtes Feinabstimmen

Weichun Shi, Minghao Liu, Wanting Zhang, et al.

Skalierung von codeassistierten Ketten des Denkens und Anweisungen zur Modellbegründung

Codegenerierung

Honglin Lin, Qizhi Pei, Xin Gao, et al.

CoDA: Codierung von LM mittels Diffusionsanpassung

Diffusionsmodell

Textgenerierung

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2: Effiziente Block-Diffusion-Large Language Model

Diffusionsmodell

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

Weniger ist mehr: Rekursives Schlussfolgern mit winzigen Netzwerken

Neuronale Netze

Alexia Jolicoeur-Martineau

Fathom-DeepResearch: Freigabe der Informationsbeschaffung und -synthese über lange Zeiträume für SLMs

Intelligente Fragebeantwortung

Shreyas Singh, Kunal Singh, Pradeep Moturi

TaTToo: Werkzeugbasiertes Denken PRM für die Testzeit-Skalierung bei tabellarischen Reasoning

Überwachtes Feinabstimmen

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

Hybride Architekturen für Sprachmodelle: Systematische Analyse und Gestaltungsinsight

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

MITS: Verbesserte Baum-Such-Schlussfolgerung für LLMs mittels punktweiser Mutual Information

Jiaxi Li, Yucheng Shi, Jin Lu, et al.

Imperzeptible Jailbreaking von großen Sprachmodellen

Textgenerierung

Kuofeng Gao, Yiming Li, Chao Du, et al.

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Ziqi Huang, Ning Yu, Gordon Chen, et al.

Video-LMM Nachschulung: Ein detaillierter Einblick in die Video-Reasoning mit großen Multimodalmodellen

Überwachtes Feinabstimmen

Yunlong Tang, Jing Bi, Pinxin Liu, et al.

Von dem Was zum Warum: Ein Multi-Agentensystem zur evidenzbasierten Schlussfolgerung chemischer Reaktionsbedingungen

Von dem Was zum Warum: Ein Multi-Agentensystem zur evidenzbasierten Schlussfolgerung chemischer Reaktionsbedingungen

Retrieval-Augmented Generation

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

DreamOmni2: Multimodale, anweisungsbasierende Bearbeitung und Generierung

DreamOmni2: Multimodale, anweisungsbasierende Bearbeitung und Generierung

Bildgenerierung

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

VideoCanvas: Einheitliche Video-Vervollständigung aus beliebigen räumlich-zeitlichen Patchen mittels Kontextbedingung

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo: Einheitliches Verstehen, Generieren und Bearbeiten von Videos

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba: Die Neubewertung von Speichermustern in State-Space-Modellen

Natürliche Sprachverarbeitung

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

MM-HELIX: Steigerung der multimodalen langkettigen reflektiven Schlussfolgerung durch eine ganzheitliche Plattform und adaptive hybride Politikoptimierung

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

PromptCoT 2.0: Skalierung der Prompt-Synthese für das Reasoning großer Sprachmodelle

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Extract-0: Ein spezialisiertes Sprachmodell für die Informationsextraktion aus Dokumenten

Überwachtes Feinabstimmen

Dokumentenverstehen

OmniRetarget: interaktionsbewahrende Datengenerierung für humanoiden ganzkörperbasierten Lokomotions- und Szeneninteraktionskontrolle

Verstärkendes Lernen

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Audio- Und Sprachverarbeitung

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Überwachtes Feinabstimmen

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung

Visuelle Fragebeantwortung

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

Lernen von Agenten durch frühe Erfahrungen

Überwachtes Feinabstimmen

Verstärkendes Lernen

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

RLinf-VLA: Ein einheitlicher und effizienter Rahmen für die VLA+RL-Trainingsweise

Verstärkendes Lernen

Multimodale Darstellung

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

SHANKS: Simultane Wahrnehmung und Denken für Sprachmodelle

Audio- Und Sprachverarbeitung

Mensch-Computer-Interaktion

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

Lumina-DiMOO: Ein Omni-Diffusions-Großsprachmodell für die multimodale Generierung und Verständnis

Diffusionsmodell

Yi Xin, Qi Qin, Siqi Luo, et al.

Cache-zu-Cache: Direkte semantische Kommunikation zwischen großen Sprachmodellen

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Ziyuan Huang, DanDan Zheng, Cheng Zou, et al.

Wissenschaftliche Algorithmusentdeckung durch Erweiterung von AlphaEvolve mit tiefgreifender Forschung

Gang Liu, Yihan Zhu, Jie Chen, et al.

ConstraintLLM: Ein neuro-symbolisches Framework für industrielle Constraint-Programmierung

Überwachtes Feinabstimmen

Weichun Shi, Minghao Liu, Wanting Zhang, et al.

Skalierung von codeassistierten Ketten des Denkens und Anweisungen zur Modellbegründung

Codegenerierung

Honglin Lin, Qizhi Pei, Xin Gao, et al.

CoDA: Codierung von LM mittels Diffusionsanpassung

Diffusionsmodell

Textgenerierung

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2: Effiziente Block-Diffusion-Large Language Model

Diffusionsmodell

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

Weniger ist mehr: Rekursives Schlussfolgern mit winzigen Netzwerken

Neuronale Netze

Alexia Jolicoeur-Martineau

Fathom-DeepResearch: Freigabe der Informationsbeschaffung und -synthese über lange Zeiträume für SLMs

Intelligente Fragebeantwortung

Shreyas Singh, Kunal Singh, Pradeep Moturi

TaTToo: Werkzeugbasiertes Denken PRM für die Testzeit-Skalierung bei tabellarischen Reasoning

Überwachtes Feinabstimmen

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

Hybride Architekturen für Sprachmodelle: Systematische Analyse und Gestaltungsinsight

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

MITS: Verbesserte Baum-Such-Schlussfolgerung für LLMs mittels punktweiser Mutual Information

Jiaxi Li, Yucheng Shi, Jin Lu, et al.

Imperzeptible Jailbreaking von großen Sprachmodellen

Textgenerierung

Kuofeng Gao, Yiming Li, Chao Du, et al.

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Ziqi Huang, Ning Yu, Gordon Chen, et al.

Video-LMM Nachschulung: Ein detaillierter Einblick in die Video-Reasoning mit großen Multimodalmodellen

Überwachtes Feinabstimmen

Yunlong Tang, Jing Bi, Pinxin Liu, et al.

VideoCanvas: Einheitliche Video-Vervollständigung aus beliebigen räumlich-zeitlichen Patchen mittels Kontextbedingung

UniVideo: Einheitliches Verstehen, Generieren und Bearbeiten von Videos

MemMamba: Die Neubewertung von Speichermustern in State-Space-Modellen

MM-HELIX: Steigerung der multimodalen langkettigen reflektiven Schlussfolgerung durch eine ganzheitliche Plattform und adaptive hybride Politikoptimierung

PromptCoT 2.0: Skalierung der Prompt-Synthese für das Reasoning großer Sprachmodelle

Extract-0: Ein spezialisiertes Sprachmodell für die Informationsextraktion aus Dokumenten

OmniRetarget: interaktionsbewahrende Datengenerierung für humanoiden ganzkörperbasierten Lokomotions- und Szeneninteraktionskontrolle

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung

Lernen von Agenten durch frühe Erfahrungen

MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung

RLinf-VLA: Ein einheitlicher und effizienter Rahmen für die VLA+RL-Trainingsweise

SHANKS: Simultane Wahrnehmung und Denken für Sprachmodelle

Lumina-DiMOO: Ein Omni-Diffusions-Großsprachmodell für die multimodale Generierung und Verständnis

Cache-zu-Cache: Direkte semantische Kommunikation zwischen großen Sprachmodellen

Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Wissenschaftliche Algorithmusentdeckung durch Erweiterung von AlphaEvolve mit tiefgreifender Forschung

ConstraintLLM: Ein neuro-symbolisches Framework für industrielle Constraint-Programmierung

Skalierung von codeassistierten Ketten des Denkens und Anweisungen zur Modellbegründung

CoDA: Codierung von LM mittels Diffusionsanpassung

Fast-dLLM v2: Effiziente Block-Diffusion-Large Language Model

Weniger ist mehr: Rekursives Schlussfolgern mit winzigen Netzwerken

Fathom-DeepResearch: Freigabe der Informationsbeschaffung und -synthese über lange Zeiträume für SLMs

TaTToo: Werkzeugbasiertes Denken PRM für die Testzeit-Skalierung bei tabellarischen Reasoning

Hybride Architekturen für Sprachmodelle: Systematische Analyse und Gestaltungsinsight

MITS: Verbesserte Baum-Such-Schlussfolgerung für LLMs mittels punktweiser Mutual Information

Imperzeptible Jailbreaking von großen Sprachmodellen

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Video-LMM Nachschulung: Ein detaillierter Einblick in die Video-Reasoning mit großen Multimodalmodellen

VideoCanvas: Einheitliche Video-Vervollständigung aus beliebigen räumlich-zeitlichen Patchen mittels Kontextbedingung

UniVideo: Einheitliches Verstehen, Generieren und Bearbeiten von Videos

MemMamba: Die Neubewertung von Speichermustern in State-Space-Modellen

MM-HELIX: Steigerung der multimodalen langkettigen reflektiven Schlussfolgerung durch eine ganzheitliche Plattform und adaptive hybride Politikoptimierung

PromptCoT 2.0: Skalierung der Prompt-Synthese für das Reasoning großer Sprachmodelle

Extract-0: Ein spezialisiertes Sprachmodell für die Informationsextraktion aus Dokumenten

OmniRetarget: interaktionsbewahrende Datengenerierung für humanoiden ganzkörperbasierten Lokomotions- und Szeneninteraktionskontrolle

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Zu lernen: tokenweise dynamische Gating-Mechanismen für ressourcenschwache visuelle Sprachmodellierung

Lernen von Agenten durch frühe Erfahrungen

MATRIX: Mask Track Alignment für interaktionsbewusste Videoerzeugung

RLinf-VLA: Ein einheitlicher und effizienter Rahmen für die VLA+RL-Trainingsweise

SHANKS: Simultane Wahrnehmung und Denken für Sprachmodelle

Lumina-DiMOO: Ein Omni-Diffusions-Großsprachmodell für die multimodale Generierung und Verständnis

Cache-zu-Cache: Direkte semantische Kommunikation zwischen großen Sprachmodellen

Ming-UniVision: Gemeinsame Bildverstehens- und Generierungsfähigkeit mit einem einheitlichen kontinuierlichen Tokenizer

Wissenschaftliche Algorithmusentdeckung durch Erweiterung von AlphaEvolve mit tiefgreifender Forschung

ConstraintLLM: Ein neuro-symbolisches Framework für industrielle Constraint-Programmierung

Skalierung von codeassistierten Ketten des Denkens und Anweisungen zur Modellbegründung

CoDA: Codierung von LM mittels Diffusionsanpassung

Fast-dLLM v2: Effiziente Block-Diffusion-Large Language Model

Weniger ist mehr: Rekursives Schlussfolgern mit winzigen Netzwerken

Fathom-DeepResearch: Freigabe der Informationsbeschaffung und -synthese über lange Zeiträume für SLMs

TaTToo: Werkzeugbasiertes Denken PRM für die Testzeit-Skalierung bei tabellarischen Reasoning

Hybride Architekturen für Sprachmodelle: Systematische Analyse und Gestaltungsinsight

MITS: Verbesserte Baum-Such-Schlussfolgerung für LLMs mittels punktweiser Mutual Information

Imperzeptible Jailbreaking von großen Sprachmodellen

VChain: Chain-of-Visual-Thought für das Schlussfolgern in der Videogenerierung

Video-LMM Nachschulung: Ein detaillierter Einblick in die Video-Reasoning mit großen Multimodalmodellen