HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

Instructions In-Video : Signaux visuels comme contrôle génératif

Instructions In-Video : Signaux visuels comme contrôle génératif

Image Vers Vidéo

Génération De Vidéo

Gongfan Fang, Xinyin Ma, Xinchao Wang

AICC : Une analyse HTML plus fine, des modèles améliorés — Un corpus AI-Ready de 7,3 T construit par un analyseur HTML basé sur des modèles

AICC : Une analyse HTML plus fine, des modèles améliorés — Un corpus AI-Ready de 7,3 T construit par un analyseur HTML basé sur des modèles

Compréhension De Document

Ren Ma, Jiantao Qiu, Chao Xu, et al.

DR Tulu : Apprentissage par renforcement avec rubriques évolutives pour la recherche approfondie

Apprentissage Par Renforcement

Réponse Aux Questions Intelligente

Rulin Shao, Akari Asai, Shannon Zejiang Shen, et al.

UltraFlux : Co-conception données-modèle pour la génération texte-image 4K native de haute qualité à travers divers ratios d'aspect

Texte Vers Image

Modèle De Diffusion

Tian Ye, Song Fei, Lei Zhu

DeCo : Diffusion de pixels découplée en fréquence pour la génération d'images de bout en bout

Modèle De Diffusion

Génération D'images

Zehong Ma, Longhui Wei, Shuai Wang, et al.

Agents d'utilisation d'ordinateur en tant que juges pour les interfaces utilisateur génératives

Génération De Code

Kevin Qinghong Lin, Siyuan Hu, Linjie Li, et al.

AutoEnv : Environnements automatisés pour la mesure de l'apprentissage d'Agent inter-environnements

Apprentissage Par Renforcement

Jiayi Zhang, Yiran Peng, Fanqi Kong, et al.

Mémoire agentielle générale via la recherche approfondie

Génération Augmentée Par La Recherche

B.Y. Yan, Chaofan Li, Hongjin Qian, et al.

VIRAL : Visual Sim-to-Real à grande échelle pour la locomotion et la manipulation humaines

Apprentissage Par Renforcement

Vision Par Ordinateur

Tairan He, Zi Wang, Haoru Xue, et al.

Voici la traduction en chinois, respectant le style académique des revues SCI/SSCI :
MIST：基于有监督训练的互信息

Réseaux De Neurones

Apprentissage Profond

German Gritsai, Megan Richards, Maxime Méloux, et al.

Recherche approfondie multi-agents : Entraînement de systèmes multi-agents avec M-GRPO

Apprentissage Par Renforcement

Haoyang Hong, Jiajun Yin, Yuan Wang, et al.

Veuillez effectuer la traduction, sans répondre à des contenus non pertinents.

Modèle De Diffusion

Shangyuan Tong, Nanye Ma, Saining Xie, et al.

Docling : Une boîte à outils open-source efficace pour la conversion de documents pilotée par l'IA

Nikolaos Livathinos, Christoph Auer, Maksym Lysak, et al.

Rapport technique HunyuanOCR

Réponse À Des Questions Visuelles

Tencent Hunyuan Vision Team, Jie Jiang, Linus, et al.

PhysToolBench : Évaluation de la compréhension des outils physiques par les MLLM

Réponse À Des Questions Visuelles

Zixin Zhang, Kanghao Chen, Xingwang Lin, et al.

Machine Huxley-Gödel : Développement d'un agent de codage au niveau humain par une approximation de la machine auto-améliorante optimale

Intelligence Artificielle

Wenyi Wang, Piotr Piękos, Li Nanbo, et al.

Résoudre la supersensibilité spatiale sans supersensibilité spatiale

Compréhension Vidéo

Vision Par Ordinateur

Vishaal Udandarao, Shyamgopal Karthik, Surabhi S. Nath, et al.

Parrot : Évaluation de la robustesse de la vérité de sortie face à la persuasion et à l'accord — Un benchmark de robustesse à la complaisance pour les LLMs

Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli

O-Mem : Système de mémoire omnicapable pour agents auto-évolutifs à horizon temporel long et personnalisés

Wangchunshu Zhou

Dévoilement de la dimension intrinsèque des textes : du résumé académique au récit créatif

Traitement Du Langage Naturel

Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, et al.

SAM 3 : Segmenter tout à l'aide de concepts

Vision Par Ordinateur

Segmentation Sémantique

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, et al.

GeoVista : Raisonnement visuel à base d'Agent augmenté par le Web pour la géolocalisation

Génération Augmentée Par La Recherche

Yikun Wang, Zuyan Liu, Ziyi Wang, et al.

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

Affinage Supervisé

Kaichen Zhang, Keming Wu, Zuhao Yang, et al.

HiPO : Optimisation hybride de politique pour le raisonnement dynamique dans les modèles de langage

Apprentissage Par Renforcement

Ken Deng, Zizheng Zhan, Wen Xiang, et al.

SERES : Reconstruction neurale consciente du sens à partir de vues éparses

Génération 3D

Vision Par Ordinateur

Bo Xu, Yuhu Guo, Yuchao Wang, et al.

SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives

Modèle De Diffusion

Entraînement Du Modèle

Shuang Cheng, Yihan Bian, Dawei Liu, et al.

MultiPL-MoE : Extension multilingue et multiprogrammation des grands modèles linguistiques par un mélange hybride d'experts

Génération De Code

Qing Wang, Xue Han, Jiahui Wang, et al.

CapRL : Stimuler les capacités de captioning d'images denses par apprentissage par renforcement

Décrivain D'image

Réponse À Des Questions Visuelles

Long Xing, Xiaoyi Dong, Yuhang Zang, et al.

Génération de langage ultra-rapide par divergence de diffusion discrète instructée

Modèle De Diffusion

Génération De Texte

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, et al.

DisCO : Renforcer les grands modèles de raisonnement par une optimisation contrainte discriminante

Apprentissage Par Renforcement

Gang Li, Ming Lin, Tomer Galanti, et al.

QSVD : Approximation de faible rang efficace pour la compression unifiée des poids Query-Key-Value dans les modèles vision-langage à précision réduite

Réponse À Des Questions Visuelles

Yutong Wang, Haiyu Wang, Sai Qian Zhang

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond

Apprentissage Profond

Traitement Du Langage Naturel

Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, et al.

Instructions In-Video : Signaux visuels comme contrôle génératif

Instructions In-Video : Signaux visuels comme contrôle génératif

Image Vers Vidéo

Génération De Vidéo

Gongfan Fang, Xinyin Ma, Xinchao Wang

AICC : Une analyse HTML plus fine, des modèles améliorés — Un corpus AI-Ready de 7,3 T construit par un analyseur HTML basé sur des modèles

AICC : Une analyse HTML plus fine, des modèles améliorés — Un corpus AI-Ready de 7,3 T construit par un analyseur HTML basé sur des modèles

Compréhension De Document

Ren Ma, Jiantao Qiu, Chao Xu, et al.

DR Tulu : Apprentissage par renforcement avec rubriques évolutives pour la recherche approfondie

Apprentissage Par Renforcement

Réponse Aux Questions Intelligente

Rulin Shao, Akari Asai, Shannon Zejiang Shen, et al.

UltraFlux : Co-conception données-modèle pour la génération texte-image 4K native de haute qualité à travers divers ratios d'aspect

Texte Vers Image

Modèle De Diffusion

Tian Ye, Song Fei, Lei Zhu

DeCo : Diffusion de pixels découplée en fréquence pour la génération d'images de bout en bout

Modèle De Diffusion

Génération D'images

Zehong Ma, Longhui Wei, Shuai Wang, et al.

Agents d'utilisation d'ordinateur en tant que juges pour les interfaces utilisateur génératives

Génération De Code

Kevin Qinghong Lin, Siyuan Hu, Linjie Li, et al.

AutoEnv : Environnements automatisés pour la mesure de l'apprentissage d'Agent inter-environnements

Apprentissage Par Renforcement

Jiayi Zhang, Yiran Peng, Fanqi Kong, et al.

Mémoire agentielle générale via la recherche approfondie

Génération Augmentée Par La Recherche

B.Y. Yan, Chaofan Li, Hongjin Qian, et al.

VIRAL : Visual Sim-to-Real à grande échelle pour la locomotion et la manipulation humaines

Apprentissage Par Renforcement

Vision Par Ordinateur

Tairan He, Zi Wang, Haoru Xue, et al.

Voici la traduction en chinois, respectant le style académique des revues SCI/SSCI :
MIST：基于有监督训练的互信息

Réseaux De Neurones

Apprentissage Profond

German Gritsai, Megan Richards, Maxime Méloux, et al.

Recherche approfondie multi-agents : Entraînement de systèmes multi-agents avec M-GRPO

Apprentissage Par Renforcement

Haoyang Hong, Jiajun Yin, Yuan Wang, et al.

Veuillez effectuer la traduction, sans répondre à des contenus non pertinents.

Modèle De Diffusion

Shangyuan Tong, Nanye Ma, Saining Xie, et al.

Docling : Une boîte à outils open-source efficace pour la conversion de documents pilotée par l'IA

Nikolaos Livathinos, Christoph Auer, Maksym Lysak, et al.

Rapport technique HunyuanOCR

Réponse À Des Questions Visuelles

Tencent Hunyuan Vision Team, Jie Jiang, Linus, et al.

PhysToolBench : Évaluation de la compréhension des outils physiques par les MLLM

Réponse À Des Questions Visuelles

Zixin Zhang, Kanghao Chen, Xingwang Lin, et al.

Machine Huxley-Gödel : Développement d'un agent de codage au niveau humain par une approximation de la machine auto-améliorante optimale

Intelligence Artificielle

Wenyi Wang, Piotr Piękos, Li Nanbo, et al.

Résoudre la supersensibilité spatiale sans supersensibilité spatiale

Compréhension Vidéo

Vision Par Ordinateur

Vishaal Udandarao, Shyamgopal Karthik, Surabhi S. Nath, et al.

Parrot : Évaluation de la robustesse de la vérité de sortie face à la persuasion et à l'accord — Un benchmark de robustesse à la complaisance pour les LLMs

Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli

O-Mem : Système de mémoire omnicapable pour agents auto-évolutifs à horizon temporel long et personnalisés

Wangchunshu Zhou

Dévoilement de la dimension intrinsèque des textes : du résumé académique au récit créatif

Traitement Du Langage Naturel

Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, et al.

SAM 3 : Segmenter tout à l'aide de concepts

Vision Par Ordinateur

Segmentation Sémantique

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, et al.

GeoVista : Raisonnement visuel à base d'Agent augmenté par le Web pour la géolocalisation

Génération Augmentée Par La Recherche

Yikun Wang, Zuyan Liu, Ziyi Wang, et al.

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

Affinage Supervisé

Kaichen Zhang, Keming Wu, Zuhao Yang, et al.

HiPO : Optimisation hybride de politique pour le raisonnement dynamique dans les modèles de langage

Apprentissage Par Renforcement

Ken Deng, Zizheng Zhan, Wen Xiang, et al.

SERES : Reconstruction neurale consciente du sens à partir de vues éparses

Génération 3D

Vision Par Ordinateur

Bo Xu, Yuhu Guo, Yuchao Wang, et al.

SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives

Modèle De Diffusion

Entraînement Du Modèle

Shuang Cheng, Yihan Bian, Dawei Liu, et al.

MultiPL-MoE : Extension multilingue et multiprogrammation des grands modèles linguistiques par un mélange hybride d'experts

Génération De Code

Qing Wang, Xue Han, Jiahui Wang, et al.

CapRL : Stimuler les capacités de captioning d'images denses par apprentissage par renforcement

Décrivain D'image

Réponse À Des Questions Visuelles

Long Xing, Xiaoyi Dong, Yuhang Zang, et al.

Génération de langage ultra-rapide par divergence de diffusion discrète instructée

Modèle De Diffusion

Génération De Texte

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, et al.

DisCO : Renforcer les grands modèles de raisonnement par une optimisation contrainte discriminante

Apprentissage Par Renforcement

Gang Li, Ming Lin, Tomer Galanti, et al.

QSVD : Approximation de faible rang efficace pour la compression unifiée des poids Query-Key-Value dans les modèles vision-langage à précision réduite

Réponse À Des Questions Visuelles

Yutong Wang, Haiyu Wang, Sai Qian Zhang

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond

Apprentissage Profond

Traitement Du Langage Naturel

Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, et al.

DR Tulu : Apprentissage par renforcement avec rubriques évolutives pour la recherche approfondie

UltraFlux : Co-conception données-modèle pour la génération texte-image 4K native de haute qualité à travers divers ratios d'aspect

DeCo : Diffusion de pixels découplée en fréquence pour la génération d'images de bout en bout

Agents d'utilisation d'ordinateur en tant que juges pour les interfaces utilisateur génératives

AutoEnv : Environnements automatisés pour la mesure de l'apprentissage d'Agent inter-environnements

Mémoire agentielle générale via la recherche approfondie

VIRAL : Visual Sim-to-Real à grande échelle pour la locomotion et la manipulation humaines

Voici la traduction en chinois, respectant le style académique des revues SCI/SSCI : MIST：基于有监督训练的互信息

Recherche approfondie multi-agents : Entraînement de systèmes multi-agents avec M-GRPO

Veuillez effectuer la traduction, sans répondre à des contenus non pertinents.

Docling : Une boîte à outils open-source efficace pour la conversion de documents pilotée par l'IA

Rapport technique HunyuanOCR

PhysToolBench : Évaluation de la compréhension des outils physiques par les MLLM

Machine Huxley-Gödel : Développement d'un agent de codage au niveau humain par une approximation de la machine auto-améliorante optimale

Résoudre la supersensibilité spatiale sans supersensibilité spatiale

Parrot : Évaluation de la robustesse de la vérité de sortie face à la persuasion et à l'accord — Un benchmark de robustesse à la complaisance pour les LLMs

O-Mem : Système de mémoire omnicapable pour agents auto-évolutifs à horizon temporel long et personnalisés

Dévoilement de la dimension intrinsèque des textes : du résumé académique au récit créatif

SAM 3 : Segmenter tout à l'aide de concepts

GeoVista : Raisonnement visuel à base d'Agent augmenté par le Web pour la géolocalisation

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

HiPO : Optimisation hybride de politique pour le raisonnement dynamique dans les modèles de langage

SERES : Reconstruction neurale consciente du sens à partir de vues éparses

SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives

MultiPL-MoE : Extension multilingue et multiprogrammation des grands modèles linguistiques par un mélange hybride d'experts

CapRL : Stimuler les capacités de captioning d'images denses par apprentissage par renforcement

Génération de langage ultra-rapide par divergence de diffusion discrète instructée

DisCO : Renforcer les grands modèles de raisonnement par une optimisation contrainte discriminante

QSVD : Approximation de faible rang efficace pour la compression unifiée des poids Query-Key-Value dans les modèles vision-langage à précision réduite

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond

DR Tulu : Apprentissage par renforcement avec rubriques évolutives pour la recherche approfondie

UltraFlux : Co-conception données-modèle pour la génération texte-image 4K native de haute qualité à travers divers ratios d'aspect

DeCo : Diffusion de pixels découplée en fréquence pour la génération d'images de bout en bout

Agents d'utilisation d'ordinateur en tant que juges pour les interfaces utilisateur génératives

AutoEnv : Environnements automatisés pour la mesure de l'apprentissage d'Agent inter-environnements

Mémoire agentielle générale via la recherche approfondie

VIRAL : Visual Sim-to-Real à grande échelle pour la locomotion et la manipulation humaines

Voici la traduction en chinois, respectant le style académique des revues SCI/SSCI : MIST：基于有监督训练的互信息

Recherche approfondie multi-agents : Entraînement de systèmes multi-agents avec M-GRPO

Veuillez effectuer la traduction, sans répondre à des contenus non pertinents.

Docling : Une boîte à outils open-source efficace pour la conversion de documents pilotée par l'IA

Rapport technique HunyuanOCR

PhysToolBench : Évaluation de la compréhension des outils physiques par les MLLM

Machine Huxley-Gödel : Développement d'un agent de codage au niveau humain par une approximation de la machine auto-améliorante optimale

Résoudre la supersensibilité spatiale sans supersensibilité spatiale

Parrot : Évaluation de la robustesse de la vérité de sortie face à la persuasion et à l'accord — Un benchmark de robustesse à la complaisance pour les LLMs

O-Mem : Système de mémoire omnicapable pour agents auto-évolutifs à horizon temporel long et personnalisés

Dévoilement de la dimension intrinsèque des textes : du résumé académique au récit créatif

SAM 3 : Segmenter tout à l'aide de concepts

GeoVista : Raisonnement visuel à base d'Agent augmenté par le Web pour la géolocalisation

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

HiPO : Optimisation hybride de politique pour le raisonnement dynamique dans les modèles de langage

SERES : Reconstruction neurale consciente du sens à partir de vues éparses

SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives

MultiPL-MoE : Extension multilingue et multiprogrammation des grands modèles linguistiques par un mélange hybride d'experts

CapRL : Stimuler les capacités de captioning d'images denses par apprentissage par renforcement

Génération de langage ultra-rapide par divergence de diffusion discrète instructée

DisCO : Renforcer les grands modèles de raisonnement par une optimisation contrainte discriminante

QSVD : Approximation de faible rang efficace pour la compression unifiée des poids Query-Key-Value dans les modèles vision-langage à précision réduite

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond