HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

SciReasoner : Établir les fondements du raisonnement scientifique à travers les disciplines

SciReasoner : Établir les fondements du raisonnement scientifique à travers les disciplines

Yizhou Wang, Chen Tang, Han Deng, et al.

MMR1 : Amélioration du raisonnement multimodal grâce à un échantillonnage conscient de la variance et à des ressources ouvertes

MMR1 : Amélioration du raisonnement multimodal grâce à un échantillonnage conscient de la variance et à des ressources ouvertes

Sicong Leng, Jing Wang, Jiaxi Li, et al.

VCRL : apprentissage par renforcement avec curriculum basé sur la variance pour les grands modèles linguistiques

Apprentissage Par Renforcement

Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.

MultiEdit : Progresser dans l'édition d'images basée sur les instructions sur des tâches diverses et exigeantes

Mingsong Li, Lin Liu, Hongjun Wang, et al.

BRISC : Jeu de données annoté pour la segmentation et la classification des tumeurs cérébrales avec Swin-HAFNet

Segmentation Sémantique

Classification D'images

Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.

EmoBench-M : Évaluation de l'intelligence émotionnelle des grands modèles linguistiques multimodaux

Reconnaissance Des Émotions

He Hu, Yucheng Zhou, Lianzhong You, et al.

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Ziting Wang, Shize Zhang, Haitao Yuan, et al.

Peindre plus facile que penser : les modèles texte-image peuvent-ils préparer la scène, mais pas diriger le spectacle ?

Texte Vers Image

Ouxiang Li, Yuan Wang, Xinting Hu, et al.

UniVerse-1 : Génération audiovisuelle unifiée par assemblage d'experts

Génération De Vidéo

Duomin Wang, Wei Zuo, Aojie Li, et al.

Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ?

Intelligence Incarnée

Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.

Rapport technique SpikingBrain : Modèles grands inspirés du cerveau à déclenchement d'impulsions

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.

SAGE : Un benchmark réaliste pour la compréhension sémantique

Jeu De Données

Samarth Goel, Reagan J. Lee, Kannan Ramchandran

WAVECLIP : Tokenisation par ondelettes pour CLIP à résolution adaptative

Classification D'images

Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.

EmbeddingGemma : Des représentations textuelles puissantes et légères

Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.

Avancement de la compréhension du discours dans les modèles linguistiques conscients du discours grâce au GRPO

Affinage Supervisé

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.

À quel point les VLM sont-ils éloignés de l'intelligence visuo-spatiale ? Une perspective pilotée par un benchmark

Songsong Yu, Yuxin Chen, Hao Ju, et al.

SIM-CoT : Chaîne de raisonnement implicite supervisée

Affinage Supervisé

Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.

SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau du dépôt ?

Réponse Aux Questions Intelligente

Weihan Peng, Yuling Shi, Yuhang Wang, et al.

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Compréhension Vidéo

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.

Une agence GPT N-Plus-1 pour la résolution critique de problèmes d'analyse en génie mécanique

Anthony Patera, Rohan Abeyaratne

Memory-QA : réponse à des questions de rappel basée sur des mémoires multimodales

Réponse À Des Questions Visuelles

Génération Augmentée Par La Recherche

Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.

MAPO : Optimisation politique à avantages mixtes

Apprentissage Par Renforcement

Modélisation Des Préférences

Wenke Huang, Quan Zhang, Yiyang Fang, et al.

Hyper-Bagel : un cadre unifié d'accélération pour la compréhension et la génération multimodales

Modèle De Diffusion

Yanzuo Lu, Xin Xia, Manlin Zhang, et al.

Apprentissage par renforcement sur les données d'entraînement préalable

Apprentissage Par Renforcement

Siheng Li, Kejiao Li, Zenan Xu, et al.

Avez-vous besoin d’états proprioceptifs dans les politiques visuomotrices ?

Intelligence Incarnée

Juntu Zhao, Wenbo Lu, Di Zhang, et al.

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.

GenExam : un examen multidisciplinaire texte-à-image

Texte Vers Image

Génération D'images

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.

Nav-R1 : Raisonnement et navigation dans des scènes incarnées

Intelligence Incarnée

Apprentissage Par Renforcement

Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.

Les MoE sont plus puissantes que vous ne le pensez : l'échelle d'inférence hyper-parallèle avec RoE

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.

ARE : Agrandissement des environnements d'agents et des évaluations

Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.

DiffusionNFT : Renforcement par diffusion en ligne avec processus avant

Modèle De Diffusion

Apprentissage Par Renforcement

Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.

TempSamp-R1 : Échantillonnage temporel efficace avec une adaptation par renforcement pour les modèles linguistiques vidéo

Apprentissage Par Renforcement

Yunheng Li, Jing Cheng, Shaoyong Jia, et al.

SciReasoner : Établir les fondements du raisonnement scientifique à travers les disciplines

SciReasoner : Établir les fondements du raisonnement scientifique à travers les disciplines

Yizhou Wang, Chen Tang, Han Deng, et al.

MMR1 : Amélioration du raisonnement multimodal grâce à un échantillonnage conscient de la variance et à des ressources ouvertes

MMR1 : Amélioration du raisonnement multimodal grâce à un échantillonnage conscient de la variance et à des ressources ouvertes

Sicong Leng, Jing Wang, Jiaxi Li, et al.

VCRL : apprentissage par renforcement avec curriculum basé sur la variance pour les grands modèles linguistiques

Apprentissage Par Renforcement

Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.

MultiEdit : Progresser dans l'édition d'images basée sur les instructions sur des tâches diverses et exigeantes

Mingsong Li, Lin Liu, Hongjun Wang, et al.

BRISC : Jeu de données annoté pour la segmentation et la classification des tumeurs cérébrales avec Swin-HAFNet

Segmentation Sémantique

Classification D'images

Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.

EmoBench-M : Évaluation de l'intelligence émotionnelle des grands modèles linguistiques multimodaux

Reconnaissance Des Émotions

He Hu, Yucheng Zhou, Lianzhong You, et al.

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Ziting Wang, Shize Zhang, Haitao Yuan, et al.

Peindre plus facile que penser : les modèles texte-image peuvent-ils préparer la scène, mais pas diriger le spectacle ?

Texte Vers Image

Ouxiang Li, Yuan Wang, Xinting Hu, et al.

UniVerse-1 : Génération audiovisuelle unifiée par assemblage d'experts

Génération De Vidéo

Duomin Wang, Wei Zuo, Aojie Li, et al.

Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ?

Intelligence Incarnée

Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.

Rapport technique SpikingBrain : Modèles grands inspirés du cerveau à déclenchement d'impulsions

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.

SAGE : Un benchmark réaliste pour la compréhension sémantique

Jeu De Données

Samarth Goel, Reagan J. Lee, Kannan Ramchandran

WAVECLIP : Tokenisation par ondelettes pour CLIP à résolution adaptative

Classification D'images

Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.

EmbeddingGemma : Des représentations textuelles puissantes et légères

Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.

Avancement de la compréhension du discours dans les modèles linguistiques conscients du discours grâce au GRPO

Affinage Supervisé

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.

À quel point les VLM sont-ils éloignés de l'intelligence visuo-spatiale ? Une perspective pilotée par un benchmark

Songsong Yu, Yuxin Chen, Hao Ju, et al.

SIM-CoT : Chaîne de raisonnement implicite supervisée

Affinage Supervisé

Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.

SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau du dépôt ?

Réponse Aux Questions Intelligente

Weihan Peng, Yuling Shi, Yuhang Wang, et al.

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Compréhension Vidéo

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.

Une agence GPT N-Plus-1 pour la résolution critique de problèmes d'analyse en génie mécanique

Anthony Patera, Rohan Abeyaratne

Memory-QA : réponse à des questions de rappel basée sur des mémoires multimodales

Réponse À Des Questions Visuelles

Génération Augmentée Par La Recherche

Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.

MAPO : Optimisation politique à avantages mixtes

Apprentissage Par Renforcement

Modélisation Des Préférences

Wenke Huang, Quan Zhang, Yiyang Fang, et al.

Hyper-Bagel : un cadre unifié d'accélération pour la compréhension et la génération multimodales

Modèle De Diffusion

Yanzuo Lu, Xin Xia, Manlin Zhang, et al.

Apprentissage par renforcement sur les données d'entraînement préalable

Apprentissage Par Renforcement

Siheng Li, Kejiao Li, Zenan Xu, et al.

Avez-vous besoin d’états proprioceptifs dans les politiques visuomotrices ?

Intelligence Incarnée

Juntu Zhao, Wenbo Lu, Di Zhang, et al.

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.

GenExam : un examen multidisciplinaire texte-à-image

Texte Vers Image

Génération D'images

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.

Nav-R1 : Raisonnement et navigation dans des scènes incarnées

Intelligence Incarnée

Apprentissage Par Renforcement

Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.

Les MoE sont plus puissantes que vous ne le pensez : l'échelle d'inférence hyper-parallèle avec RoE

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.

ARE : Agrandissement des environnements d'agents et des évaluations

Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.

DiffusionNFT : Renforcement par diffusion en ligne avec processus avant

Modèle De Diffusion

Apprentissage Par Renforcement

Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.

TempSamp-R1 : Échantillonnage temporel efficace avec une adaptation par renforcement pour les modèles linguistiques vidéo

Apprentissage Par Renforcement

Yunheng Li, Jing Cheng, Shaoyong Jia, et al.

VCRL : apprentissage par renforcement avec curriculum basé sur la variance pour les grands modèles linguistiques

MultiEdit : Progresser dans l'édition d'images basée sur les instructions sur des tâches diverses et exigeantes

BRISC : Jeu de données annoté pour la segmentation et la classification des tumeurs cérébrales avec Swin-HAFNet

EmoBench-M : Évaluation de l'intelligence émotionnelle des grands modèles linguistiques multimodaux

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Peindre plus facile que penser : les modèles texte-image peuvent-ils préparer la scène, mais pas diriger le spectacle ?

UniVerse-1 : Génération audiovisuelle unifiée par assemblage d'experts

Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ?

Rapport technique SpikingBrain : Modèles grands inspirés du cerveau à déclenchement d'impulsions

SAGE : Un benchmark réaliste pour la compréhension sémantique

WAVECLIP : Tokenisation par ondelettes pour CLIP à résolution adaptative

EmbeddingGemma : Des représentations textuelles puissantes et légères

Avancement de la compréhension du discours dans les modèles linguistiques conscients du discours grâce au GRPO

À quel point les VLM sont-ils éloignés de l'intelligence visuo-spatiale ? Une perspective pilotée par un benchmark

SIM-CoT : Chaîne de raisonnement implicite supervisée

SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau du dépôt ?

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Une agence GPT N-Plus-1 pour la résolution critique de problèmes d'analyse en génie mécanique

Memory-QA : réponse à des questions de rappel basée sur des mémoires multimodales

MAPO : Optimisation politique à avantages mixtes

Hyper-Bagel : un cadre unifié d'accélération pour la compréhension et la génération multimodales

Apprentissage par renforcement sur les données d'entraînement préalable

Avez-vous besoin d’états proprioceptifs dans les politiques visuomotrices ?

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

GenExam : un examen multidisciplinaire texte-à-image

Nav-R1 : Raisonnement et navigation dans des scènes incarnées

Les MoE sont plus puissantes que vous ne le pensez : l'échelle d'inférence hyper-parallèle avec RoE

ARE : Agrandissement des environnements d'agents et des évaluations

DiffusionNFT : Renforcement par diffusion en ligne avec processus avant

TempSamp-R1 : Échantillonnage temporel efficace avec une adaptation par renforcement pour les modèles linguistiques vidéo

VCRL : apprentissage par renforcement avec curriculum basé sur la variance pour les grands modèles linguistiques

MultiEdit : Progresser dans l'édition d'images basée sur les instructions sur des tâches diverses et exigeantes

BRISC : Jeu de données annoté pour la segmentation et la classification des tumeurs cérébrales avec Swin-HAFNet

EmoBench-M : Évaluation de l'intelligence émotionnelle des grands modèles linguistiques multimodaux

FDABench : un benchmark pour les agents de données sur les requêtes analytiques sur des données hétérogènes

Peindre plus facile que penser : les modèles texte-image peuvent-ils préparer la scène, mais pas diriger le spectacle ?

UniVerse-1 : Génération audiovisuelle unifiée par assemblage d'experts

Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ?

Rapport technique SpikingBrain : Modèles grands inspirés du cerveau à déclenchement d'impulsions

SAGE : Un benchmark réaliste pour la compréhension sémantique

WAVECLIP : Tokenisation par ondelettes pour CLIP à résolution adaptative

EmbeddingGemma : Des représentations textuelles puissantes et légères

Avancement de la compréhension du discours dans les modèles linguistiques conscients du discours grâce au GRPO

À quel point les VLM sont-ils éloignés de l'intelligence visuo-spatiale ? Une perspective pilotée par un benchmark

SIM-CoT : Chaîne de raisonnement implicite supervisée

SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau du dépôt ?

Les modèles vidéo sont des apprenants et raisonneurs zéro-shot

Une agence GPT N-Plus-1 pour la résolution critique de problèmes d'analyse en génie mécanique

Memory-QA : réponse à des questions de rappel basée sur des mémoires multimodales

MAPO : Optimisation politique à avantages mixtes

Hyper-Bagel : un cadre unifié d'accélération pour la compréhension et la génération multimodales

Apprentissage par renforcement sur les données d'entraînement préalable

Avez-vous besoin d’états proprioceptifs dans les politiques visuomotrices ?

Baseer : un modèle vision-langage pour la reconnaissance optique de caractères de documents arabes vers Markdown

GenExam : un examen multidisciplinaire texte-à-image

Nav-R1 : Raisonnement et navigation dans des scènes incarnées

Les MoE sont plus puissantes que vous ne le pensez : l'échelle d'inférence hyper-parallèle avec RoE

ARE : Agrandissement des environnements d'agents et des évaluations

DiffusionNFT : Renforcement par diffusion en ligne avec processus avant

TempSamp-R1 : Échantillonnage temporel efficace avec une adaptation par renforcement pour les modèles linguistiques vidéo