HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

Élagage des prévisibles : raisonnement efficace sur le code via la surprise du premier jeton

Élagage des prévisibles : raisonnement efficace sur le code via la surprise du premier jeton

Génération De Code

Wenhao Zeng, Yaoning Wang, Chao Hu, et al.

Voost : un transformateur de diffusion unifié et évolutif pour l’essayage virtuel bidirectionnel et le retrait virtuel

Voost : un transformateur de diffusion unifié et évolutif pour l’essayage virtuel bidirectionnel et le retrait virtuel

Modèle De Diffusion

Inpainting D'image

Seungyong Lee, Jeong-gi Kwak

InfiGUI-G1 : Progresser dans l'annotation des interfaces graphiques utilisateur grâce à l'optimisation d'une politique d'exploration adaptative

Réponse À Des Questions Visuelles

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.

Memp : Exploration de la mémoire procédurale des agents

Runnan Fang, Yuan Liang, Xiaobin Wang, et al.

Perch 2.0 : La leçon du bécassine pour la bioacoustique

Classification Audio

Apprentissage Multi-tâches

Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.

Sommes-nous sur la bonne voie pour évaluer la génération de documents augmentée par récupération ?

Génération Augmentée Par La Recherche

Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.

Hi3DEval : Progresser dans l’évaluation de la génération 3D grâce à une validité hiérarchique

Génération 3D

Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.

DeepPHY : Évaluation des VLM agents sur le raisonnement physique

Xinrun Xu, Pi Bu, Ye Wang, et al.

Genie Envisioner : une plateforme fondamentale unifiée du monde pour la manipulation robotique

Génération De Vidéo

Yue Liao, Pengfei Zhou, Siyuan Huang, et al.

R-Zéro : un modèle LLM de raisonnement auto-évoluant à partir de zéro donnée

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.

Sur la généralisation de SFT : une perspective d'apprentissage par renforcement avec rectification de récompense

Affinage Supervisé

Apprentissage Par Renforcement

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.

Simuler des dynamiques d'apprentissage humain avec des agents autonomes alimentés par des grands modèles linguistiques

Yu Yuan, Lili Zhao, Wei Chen, et al.

GRAIL : Apprendre à interagir avec de grands graphes de connaissances pour un raisonnement augmenté par la récupération

Génération Augmentée Par La Recherche

Ge Chang, Jinbo Su, Jiacheng Liu, et al.

CoTox : Raisonnement et prédiction de la toxicité moléculaire fondés sur la chaîne de raisonnement

Jueon Park, Yein Park, Minju Song, et al.

Agents efficaces : Construire des agents performants tout en réduisant les coûts

Ningning Wang, Xavier Hu, Pai Liu, et al.

Le raisonnement en chaîne des LLM est-il une illusion ? Une perspective fondée sur la distribution des données

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Rapport technique Qwen2.5-VL

Compréhension De Document

Compréhension Vidéo

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

Le GAN est mort ; vive le GAN ! Une base moderne pour les GAN

Apprentissage Profond

Vision Par Ordinateur

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs : synthèse de données massives pour la recherche multimodale universelle

Jeu De Données

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra : Un cadre efficace et centré sur la parole pour l'omnicognition

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA : Modèles linguistiques visuels pour les frontières efficaces

Compréhension Vidéo

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Représentation Multimodale

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

Rapport technique Baichuan-Omni

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Compréhension D'images

Compréhension Vidéo

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Rapport technique Qwen2

Génération De Code

An Yang, Baosong Yang, Binyuan Hui, et al.

Une image vaut 32 jetons pour la reconstruction et la génération

Génération D'images

Qihang Yu, Mark Weber, Xueqing Deng, et al.

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Génération D'images

Peize Sun, Yi Jiang, Shoufa Chen, et al.

Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels

Réponse À Des Questions Visuelles

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.

Élagage des prévisibles : raisonnement efficace sur le code via la surprise du premier jeton

Élagage des prévisibles : raisonnement efficace sur le code via la surprise du premier jeton

Génération De Code

Wenhao Zeng, Yaoning Wang, Chao Hu, et al.

Voost : un transformateur de diffusion unifié et évolutif pour l’essayage virtuel bidirectionnel et le retrait virtuel

Voost : un transformateur de diffusion unifié et évolutif pour l’essayage virtuel bidirectionnel et le retrait virtuel

Modèle De Diffusion

Inpainting D'image

Seungyong Lee, Jeong-gi Kwak

InfiGUI-G1 : Progresser dans l'annotation des interfaces graphiques utilisateur grâce à l'optimisation d'une politique d'exploration adaptative

Réponse À Des Questions Visuelles

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.

Memp : Exploration de la mémoire procédurale des agents

Runnan Fang, Yuan Liang, Xiaobin Wang, et al.

Perch 2.0 : La leçon du bécassine pour la bioacoustique

Classification Audio

Apprentissage Multi-tâches

Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.

Sommes-nous sur la bonne voie pour évaluer la génération de documents augmentée par récupération ?

Génération Augmentée Par La Recherche

Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.

Hi3DEval : Progresser dans l’évaluation de la génération 3D grâce à une validité hiérarchique

Génération 3D

Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.

DeepPHY : Évaluation des VLM agents sur le raisonnement physique

Xinrun Xu, Pi Bu, Ye Wang, et al.

Genie Envisioner : une plateforme fondamentale unifiée du monde pour la manipulation robotique

Génération De Vidéo

Yue Liao, Pengfei Zhou, Siyuan Huang, et al.

R-Zéro : un modèle LLM de raisonnement auto-évoluant à partir de zéro donnée

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.

Sur la généralisation de SFT : une perspective d'apprentissage par renforcement avec rectification de récompense

Affinage Supervisé

Apprentissage Par Renforcement

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.

Simuler des dynamiques d'apprentissage humain avec des agents autonomes alimentés par des grands modèles linguistiques

Yu Yuan, Lili Zhao, Wei Chen, et al.

GRAIL : Apprendre à interagir avec de grands graphes de connaissances pour un raisonnement augmenté par la récupération

Génération Augmentée Par La Recherche

Ge Chang, Jinbo Su, Jiacheng Liu, et al.

CoTox : Raisonnement et prédiction de la toxicité moléculaire fondés sur la chaîne de raisonnement

Jueon Park, Yein Park, Minju Song, et al.

Agents efficaces : Construire des agents performants tout en réduisant les coûts

Ningning Wang, Xavier Hu, Pai Liu, et al.

Le raisonnement en chaîne des LLM est-il une illusion ? Une perspective fondée sur la distribution des données

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Rapport technique Qwen2.5-VL

Compréhension De Document

Compréhension Vidéo

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

Le GAN est mort ; vive le GAN ! Une base moderne pour les GAN

Apprentissage Profond

Vision Par Ordinateur

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs : synthèse de données massives pour la recherche multimodale universelle

Jeu De Données

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra : Un cadre efficace et centré sur la parole pour l'omnicognition

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA : Modèles linguistiques visuels pour les frontières efficaces

Compréhension Vidéo

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Représentation Multimodale

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

Rapport technique Baichuan-Omni

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Compréhension D'images

Compréhension Vidéo

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Rapport technique Qwen2

Génération De Code

An Yang, Baosong Yang, Binyuan Hui, et al.

Une image vaut 32 jetons pour la reconstruction et la génération

Génération D'images

Qihang Yu, Mark Weber, Xueqing Deng, et al.

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Génération D'images

Peize Sun, Yi Jiang, Shoufa Chen, et al.

Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels

Réponse À Des Questions Visuelles

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.

InfiGUI-G1 : Progresser dans l'annotation des interfaces graphiques utilisateur grâce à l'optimisation d'une politique d'exploration adaptative

Memp : Exploration de la mémoire procédurale des agents

Perch 2.0 : La leçon du bécassine pour la bioacoustique

Sommes-nous sur la bonne voie pour évaluer la génération de documents augmentée par récupération ?

Hi3DEval : Progresser dans l’évaluation de la génération 3D grâce à une validité hiérarchique

DeepPHY : Évaluation des VLM agents sur le raisonnement physique

Genie Envisioner : une plateforme fondamentale unifiée du monde pour la manipulation robotique

R-Zéro : un modèle LLM de raisonnement auto-évoluant à partir de zéro donnée

Sur la généralisation de SFT : une perspective d'apprentissage par renforcement avec rectification de récompense

Simuler des dynamiques d'apprentissage humain avec des agents autonomes alimentés par des grands modèles linguistiques

GRAIL : Apprendre à interagir avec de grands graphes de connaissances pour un raisonnement augmenté par la récupération

CoTox : Raisonnement et prédiction de la toxicité moléculaire fondés sur la chaîne de raisonnement

Agents efficaces : Construire des agents performants tout en réduisant les coûts

Le raisonnement en chaîne des LLM est-il une illusion ? Une perspective fondée sur la distribution des données

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Rapport technique Qwen2.5-VL

Le GAN est mort ; vive le GAN ! Une base moderne pour les GAN

MegaPairs : synthèse de données massives pour la recherche multimodale universelle

Lyra : Un cadre efficace et centré sur la parole pour l'omnicognition

Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test

NVILA : Modèles linguistiques visuels pour les frontières efficaces

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Rapport technique Baichuan-Omni

MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux

Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Rapport technique Qwen2

Une image vaut 32 jetons pour la reconstruction et la génération

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels

InfiGUI-G1 : Progresser dans l'annotation des interfaces graphiques utilisateur grâce à l'optimisation d'une politique d'exploration adaptative

Memp : Exploration de la mémoire procédurale des agents

Perch 2.0 : La leçon du bécassine pour la bioacoustique

Sommes-nous sur la bonne voie pour évaluer la génération de documents augmentée par récupération ?

Hi3DEval : Progresser dans l’évaluation de la génération 3D grâce à une validité hiérarchique

DeepPHY : Évaluation des VLM agents sur le raisonnement physique

Genie Envisioner : une plateforme fondamentale unifiée du monde pour la manipulation robotique

R-Zéro : un modèle LLM de raisonnement auto-évoluant à partir de zéro donnée

Sur la généralisation de SFT : une perspective d'apprentissage par renforcement avec rectification de récompense

Simuler des dynamiques d'apprentissage humain avec des agents autonomes alimentés par des grands modèles linguistiques

GRAIL : Apprendre à interagir avec de grands graphes de connaissances pour un raisonnement augmenté par la récupération

CoTox : Raisonnement et prédiction de la toxicité moléculaire fondés sur la chaîne de raisonnement

Agents efficaces : Construire des agents performants tout en réduisant les coûts

Le raisonnement en chaîne des LLM est-il une illusion ? Une perspective fondée sur la distribution des données

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Rapport technique Qwen2.5-VL

Le GAN est mort ; vive le GAN ! Une base moderne pour les GAN

MegaPairs : synthèse de données massives pour la recherche multimodale universelle

Lyra : Un cadre efficace et centré sur la parole pour l'omnicognition

Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test

NVILA : Modèles linguistiques visuels pour les frontières efficaces

VisionZip : Plus long est meilleur, mais pas nécessaire dans les modèles vision-langage

Rapport technique Baichuan-Omni

MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux

Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

CogVLM2 : Modèles de langage visuel pour la compréhension d'images et de vidéos

Rapport technique Qwen2

Une image vaut 32 jetons pour la reconstruction et la génération

Modèle autorégressif bat la diffusion : Llama pour une génération d’images évolutif

Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels