HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

EvalVerse : Évaluation consciente du pipeline et calibrée par des experts pour la génération de vidéos cinématographiques professionnelles

EvalVerse : Évaluation consciente du pipeline et calibrée par des experts pour la génération de vidéos cinématographiques professionnelles

Génération De Vidéo

Songlin Yang, Haobin Zhong, Ruilin Zhang, et al.

MobileGym : Une plateforme de simulation vérifiable et hautement parallèle pour la recherche sur les Mobile GUI Agent

MobileGym : Une plateforme de simulation vérifiable et hautement parallèle pour la recherche sur les Mobile GUI Agent

Apprentissage Par Renforcement

Dingbang Wu, Rui Hao, Haiyang Wang, et al.

SpatialBench : Votre modèle fondamental spatial est-il un joueur polyvalent ?

Haosong Peng, Hao Li, Jiaqi Chen, et al.

LocateAnything : Ancrage vision-langage rapide et de haute qualité avec décodage parallèle de boîtes

Détection D'objets

Shihao Wang, Shilong Liu, Yuanguo Kuang, et al.

Gemini Embedding 2 : Un modèle d’embedding multimodal natif de Gemini

Représentation Multimodale

Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, et al.

Les modèles de langage ont besoin de sommeil

Apprentissage Profond

Sangyun Lee, Sean McLeish, Tom Goldstein, et al.

ECHO : Les agents terminaux apprennent des modèles du monde gratuitement

Apprentissage Par Renforcement

Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, et al.

ParaVT : Dompter le paradoxe de l'antériorité des outils pour l'utilisation parallèle des outils dans l'apprentissage par renforcement vidéo agentique

Compréhension Vidéo

Zuhao Yang, Kaichen Zhang, Sudong Wang, et al.

TriSplat : Reconstruction de scènes 3D en avant-prévision prête pour la simulation

Vision Par Ordinateur

Weijie Wang, Zimu Li, Jinchuan Shi, et al.

Protocole de fondation : une couche de coordination pour la société agentique

Bang Liu, Yongfeng Gu, Jiayi Zhang, et al.

WBench : Un benchmark complet multi-tours pour l'évaluation des modèles de monde vidéo interactifs

Génération De Vidéo

Kaining Ying, Hengrui Hu, Siyu Ren, et al.

Macaron-A2UI : Un modèle pour l'interface utilisateur générative dans les agents personnels

Fancy Kong, Congjie Zheng, Murphy Zhuang, et al.

DVAO : Optimisation dynamique de l'avantage à variance adaptative pour l'apprentissage par renforcement multi-récompense

Apprentissage Par Renforcement

Apprentissage Multi-tâches

Guochao Jiang, Jingyi Song, Guofeng Quan, et al.

ViMU : Évaluation de la compréhension des métaphores vidéo

Compréhension Vidéo

Reconnaissance Des Émotions

Qi Li, Xinchao Wang

SMOL : Données parallèles professionnellement traduites pour 115 langues sous-représentées

Affinage Supervisé

Isaac Caswell, Elizabeth Nielsen, Jiaming Luo, et al.

Chi-Bench : Les agents d’IA peuvent-ils automatiser des workflows de santé complets, à long terme et riches en politiques ?

Haolin Chen, Deon Metelski, Leon Qi, et al.

Combinaison de l’optimisation on-policy et de la distillation pour le raisonnement à long contexte dans les grands modèles de langage

Entraînement Du Modèle

Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

À travers le prisme du contraste : auto-amélioration du raisonnement visuel dans les VLMs

Réponse À Des Questions Visuelles

Zhiyu Pan, Yizheng Wu, Jiashen Hua, et al.

HRM-Text: Un préentraînement efficace au-delà de la mise à l’échelle

Entraînement Du Modèle

Apprentissage Profond

Guan Wang, Changling Liu, Chenyu Wang, et al.

Voir ce que je veux dire : Aligner les représentations visuelles et linguistiques pour la compréhension fine des objets dans les vidéos

Représentation Multimodale

Boyuan Sun, Bowen Yin, Yuanming Li, et al.

Rapport technique StepAudio 2.5

Reconnaissance Vocale

Bin Lin, Bo Zhao, Boyong Wu, et al.

SciAtlas : Un graphe de connaissances à grande échelle pour la recherche scientifique automatisée

IA Pour La Science

Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, et al.

Repenser le routage de l'information inter-couches dans les Transformers de diffusion

Modèle De Diffusion

Chao Xu, Maohua Li, Qirui Li, et al.

Lens : Repenser l'efficacité de l'entraînement pour les modèles fondamentaux de texte vers image

Texte Vers Image

Modèle De Diffusion

Dong Chen, Fangyun Wei, Ziyu Wan, et al.

SkillOpt : Stratégie exécutive pour des compétences d'agent auto-évoluant

Yifan Yang, Ziyang Gong, Weiquan Huang, et al.

CVEvolve : Découverte autonome d'algorithmes pour le traitement des données scientifiques non structurées

IA Pour La Science

Traitement D'images

Ming Du, Xiangyu Yin, Yanqi Luo, et al.

Poly-EPO : Entraînement des modèles de raisonnement exploratoire

Apprentissage Par Renforcement

Ifdita Hasan Orney, Jubayer Ibn Hamid, Shreya S Ramanujam, et al.

Résumé

Génération Augmentée Par La Recherche

Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, et al.

ACC : Compilation des trajectoires d'agents pour l'entraînement à long contexte

Affinage Supervisé

Qisheng Su, Zhen Fang, Shiting Huang, et al.

L'attention complète frappe à nouveau : transférer l'attention complète en attention sparse en quelques centaines d'étapes d'entraînement

Yanke Zhou, Yiduo Li, Hanlin Tang, et al.

$π$-Bench : Évaluation des agents assistants personnels proactifs dans les workflows à long terme

Haoran Zhang, Luxin Xu, Zhilin Wang, et al.

Perception ou préjugé : les MLLMs peuvent-ils aller au-delà des premières impressions de personnalité ?

Caixin Kang, Tianyu Yan, Sitong Gong, et al.

EvalVerse : Évaluation consciente du pipeline et calibrée par des experts pour la génération de vidéos cinématographiques professionnelles

EvalVerse : Évaluation consciente du pipeline et calibrée par des experts pour la génération de vidéos cinématographiques professionnelles

Génération De Vidéo

Songlin Yang, Haobin Zhong, Ruilin Zhang, et al.

MobileGym : Une plateforme de simulation vérifiable et hautement parallèle pour la recherche sur les Mobile GUI Agent

MobileGym : Une plateforme de simulation vérifiable et hautement parallèle pour la recherche sur les Mobile GUI Agent

Apprentissage Par Renforcement

Dingbang Wu, Rui Hao, Haiyang Wang, et al.

SpatialBench : Votre modèle fondamental spatial est-il un joueur polyvalent ?

Haosong Peng, Hao Li, Jiaqi Chen, et al.

LocateAnything : Ancrage vision-langage rapide et de haute qualité avec décodage parallèle de boîtes

Détection D'objets

Shihao Wang, Shilong Liu, Yuanguo Kuang, et al.

Gemini Embedding 2 : Un modèle d’embedding multimodal natif de Gemini

Représentation Multimodale

Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, et al.

Les modèles de langage ont besoin de sommeil

Apprentissage Profond

Sangyun Lee, Sean McLeish, Tom Goldstein, et al.

ECHO : Les agents terminaux apprennent des modèles du monde gratuitement

Apprentissage Par Renforcement

Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, et al.

ParaVT : Dompter le paradoxe de l'antériorité des outils pour l'utilisation parallèle des outils dans l'apprentissage par renforcement vidéo agentique

Compréhension Vidéo

Zuhao Yang, Kaichen Zhang, Sudong Wang, et al.

TriSplat : Reconstruction de scènes 3D en avant-prévision prête pour la simulation

Vision Par Ordinateur

Weijie Wang, Zimu Li, Jinchuan Shi, et al.

Protocole de fondation : une couche de coordination pour la société agentique

Bang Liu, Yongfeng Gu, Jiayi Zhang, et al.

WBench : Un benchmark complet multi-tours pour l'évaluation des modèles de monde vidéo interactifs

Génération De Vidéo

Kaining Ying, Hengrui Hu, Siyu Ren, et al.

Macaron-A2UI : Un modèle pour l'interface utilisateur générative dans les agents personnels

Fancy Kong, Congjie Zheng, Murphy Zhuang, et al.

DVAO : Optimisation dynamique de l'avantage à variance adaptative pour l'apprentissage par renforcement multi-récompense

Apprentissage Par Renforcement

Apprentissage Multi-tâches

Guochao Jiang, Jingyi Song, Guofeng Quan, et al.

ViMU : Évaluation de la compréhension des métaphores vidéo

Compréhension Vidéo

Reconnaissance Des Émotions

Qi Li, Xinchao Wang

SMOL : Données parallèles professionnellement traduites pour 115 langues sous-représentées

Affinage Supervisé

Isaac Caswell, Elizabeth Nielsen, Jiaming Luo, et al.

Chi-Bench : Les agents d’IA peuvent-ils automatiser des workflows de santé complets, à long terme et riches en politiques ?

Haolin Chen, Deon Metelski, Leon Qi, et al.

Combinaison de l’optimisation on-policy et de la distillation pour le raisonnement à long contexte dans les grands modèles de langage

Entraînement Du Modèle

Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

À travers le prisme du contraste : auto-amélioration du raisonnement visuel dans les VLMs

Réponse À Des Questions Visuelles

Zhiyu Pan, Yizheng Wu, Jiashen Hua, et al.

HRM-Text: Un préentraînement efficace au-delà de la mise à l’échelle

Entraînement Du Modèle

Apprentissage Profond

Guan Wang, Changling Liu, Chenyu Wang, et al.

Voir ce que je veux dire : Aligner les représentations visuelles et linguistiques pour la compréhension fine des objets dans les vidéos

Représentation Multimodale

Boyuan Sun, Bowen Yin, Yuanming Li, et al.

Rapport technique StepAudio 2.5

Reconnaissance Vocale

Bin Lin, Bo Zhao, Boyong Wu, et al.

SciAtlas : Un graphe de connaissances à grande échelle pour la recherche scientifique automatisée

IA Pour La Science

Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, et al.

Repenser le routage de l'information inter-couches dans les Transformers de diffusion

Modèle De Diffusion

Chao Xu, Maohua Li, Qirui Li, et al.

Lens : Repenser l'efficacité de l'entraînement pour les modèles fondamentaux de texte vers image

Texte Vers Image

Modèle De Diffusion

Dong Chen, Fangyun Wei, Ziyu Wan, et al.

SkillOpt : Stratégie exécutive pour des compétences d'agent auto-évoluant

Yifan Yang, Ziyang Gong, Weiquan Huang, et al.

CVEvolve : Découverte autonome d'algorithmes pour le traitement des données scientifiques non structurées

IA Pour La Science

Traitement D'images

Ming Du, Xiangyu Yin, Yanqi Luo, et al.

Poly-EPO : Entraînement des modèles de raisonnement exploratoire

Apprentissage Par Renforcement

Ifdita Hasan Orney, Jubayer Ibn Hamid, Shreya S Ramanujam, et al.

Résumé

Génération Augmentée Par La Recherche

Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, et al.

ACC : Compilation des trajectoires d'agents pour l'entraînement à long contexte

Affinage Supervisé

Qisheng Su, Zhen Fang, Shiting Huang, et al.

L'attention complète frappe à nouveau : transférer l'attention complète en attention sparse en quelques centaines d'étapes d'entraînement

Yanke Zhou, Yiduo Li, Hanlin Tang, et al.

$π$-Bench : Évaluation des agents assistants personnels proactifs dans les workflows à long terme

Haoran Zhang, Luxin Xu, Zhilin Wang, et al.

Perception ou préjugé : les MLLMs peuvent-ils aller au-delà des premières impressions de personnalité ?

Caixin Kang, Tianyu Yan, Sitong Gong, et al.

SpatialBench : Votre modèle fondamental spatial est-il un joueur polyvalent ?

LocateAnything : Ancrage vision-langage rapide et de haute qualité avec décodage parallèle de boîtes

Gemini Embedding 2 : Un modèle d’embedding multimodal natif de Gemini

Les modèles de langage ont besoin de sommeil

ECHO : Les agents terminaux apprennent des modèles du monde gratuitement

ParaVT : Dompter le paradoxe de l'antériorité des outils pour l'utilisation parallèle des outils dans l'apprentissage par renforcement vidéo agentique

TriSplat : Reconstruction de scènes 3D en avant-prévision prête pour la simulation

Protocole de fondation : une couche de coordination pour la société agentique

WBench : Un benchmark complet multi-tours pour l'évaluation des modèles de monde vidéo interactifs

Macaron-A2UI : Un modèle pour l'interface utilisateur générative dans les agents personnels

DVAO : Optimisation dynamique de l'avantage à variance adaptative pour l'apprentissage par renforcement multi-récompense

ViMU : Évaluation de la compréhension des métaphores vidéo

SMOL : Données parallèles professionnellement traduites pour 115 langues sous-représentées

Chi-Bench : Les agents d’IA peuvent-ils automatiser des workflows de santé complets, à long terme et riches en politiques ?

Combinaison de l’optimisation on-policy et de la distillation pour le raisonnement à long contexte dans les grands modèles de langage

À travers le prisme du contraste : auto-amélioration du raisonnement visuel dans les VLMs

HRM-Text: Un préentraînement efficace au-delà de la mise à l’échelle

Voir ce que je veux dire : Aligner les représentations visuelles et linguistiques pour la compréhension fine des objets dans les vidéos

Rapport technique StepAudio 2.5

SciAtlas : Un graphe de connaissances à grande échelle pour la recherche scientifique automatisée

Repenser le routage de l'information inter-couches dans les Transformers de diffusion

Lens : Repenser l'efficacité de l'entraînement pour les modèles fondamentaux de texte vers image

SkillOpt : Stratégie exécutive pour des compétences d'agent auto-évoluant

CVEvolve : Découverte autonome d'algorithmes pour le traitement des données scientifiques non structurées

Poly-EPO : Entraînement des modèles de raisonnement exploratoire

Résumé

ACC : Compilation des trajectoires d'agents pour l'entraînement à long contexte

L'attention complète frappe à nouveau : transférer l'attention complète en attention sparse en quelques centaines d'étapes d'entraînement

$π$ -Bench : Évaluation des agents assistants personnels proactifs dans les workflows à long terme

Perception ou préjugé : les MLLMs peuvent-ils aller au-delà des premières impressions de personnalité ?

SpatialBench : Votre modèle fondamental spatial est-il un joueur polyvalent ?

LocateAnything : Ancrage vision-langage rapide et de haute qualité avec décodage parallèle de boîtes

Gemini Embedding 2 : Un modèle d’embedding multimodal natif de Gemini

Les modèles de langage ont besoin de sommeil

ECHO : Les agents terminaux apprennent des modèles du monde gratuitement

ParaVT : Dompter le paradoxe de l'antériorité des outils pour l'utilisation parallèle des outils dans l'apprentissage par renforcement vidéo agentique

TriSplat : Reconstruction de scènes 3D en avant-prévision prête pour la simulation

Protocole de fondation : une couche de coordination pour la société agentique

WBench : Un benchmark complet multi-tours pour l'évaluation des modèles de monde vidéo interactifs

Macaron-A2UI : Un modèle pour l'interface utilisateur générative dans les agents personnels

DVAO : Optimisation dynamique de l'avantage à variance adaptative pour l'apprentissage par renforcement multi-récompense

ViMU : Évaluation de la compréhension des métaphores vidéo

SMOL : Données parallèles professionnellement traduites pour 115 langues sous-représentées

Chi-Bench : Les agents d’IA peuvent-ils automatiser des workflows de santé complets, à long terme et riches en politiques ?

Combinaison de l’optimisation on-policy et de la distillation pour le raisonnement à long contexte dans les grands modèles de langage

À travers le prisme du contraste : auto-amélioration du raisonnement visuel dans les VLMs

HRM-Text: Un préentraînement efficace au-delà de la mise à l’échelle

Voir ce que je veux dire : Aligner les représentations visuelles et linguistiques pour la compréhension fine des objets dans les vidéos

Rapport technique StepAudio 2.5

SciAtlas : Un graphe de connaissances à grande échelle pour la recherche scientifique automatisée

Repenser le routage de l'information inter-couches dans les Transformers de diffusion

Lens : Repenser l'efficacité de l'entraînement pour les modèles fondamentaux de texte vers image

SkillOpt : Stratégie exécutive pour des compétences d'agent auto-évoluant

CVEvolve : Découverte autonome d'algorithmes pour le traitement des données scientifiques non structurées

Poly-EPO : Entraînement des modèles de raisonnement exploratoire

Résumé

ACC : Compilation des trajectoires d'agents pour l'entraînement à long contexte

L'attention complète frappe à nouveau : transférer l'attention complète en attention sparse en quelques centaines d'étapes d'entraînement

$π$ -Bench : Évaluation des agents assistants personnels proactifs dans les workflows à long terme

Perception ou préjugé : les MLLMs peuvent-ils aller au-delà des premières impressions de personnalité ?