HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

Voir, écouter, se souvenir et raisonner : un agent multimodal doté d'une mémoire à long terme

Voir, écouter, se souvenir et raisonner : un agent multimodal doté d'une mémoire à long terme

Lin Long, Yichen He, Wentao Ye, et al.

Les LLMs à diffusion peuvent effectuer une inférence plus rapide que l'AR grâce à la contrainte de diffusion discrète

Les LLMs à diffusion peuvent effectuer une inférence plus rapide que l'AR grâce à la contrainte de diffusion discrète

Modèle De Diffusion

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld : Système multi-agents dynamique avec manœuvrabilité stable pour une résolution robuste du problème GAIA

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board : Une approche sans entraînement pour la génération expressive de storyboards

Texte Vers Image

Génération D'images

David Dinkevich, Matan Levy, Omri Avrahami, et al.

Stand-In : un contrôle d'identité léger et plug-and-play pour la génération vidéo

Génération De Vidéo

Image Vers Vidéo

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1 : Vers un raisonnement Long-CoT explicite dans la découverte de molécules

Affinage Supervisé

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron : modèles de raisonnement efficaces

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Compréhension De Document

Récupération De Documents Visuels

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images

Texte Vers Image

Jeu De Données

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

Coloration virtuelle de tissus sans marqueur dans la spectrométrie de masse par imagerie

Vision Par Ordinateur

Compréhension D'images

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage

Génération De Code

Représentation Multimodale

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch : un cadre de recherche profonde hiérarchique pour les entreprises intégrant les recherches locales et web

Génération Augmentée Par La Recherche

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

Le temps est une caractéristique : exploitation des dynamiques temporelles dans les modèles linguistiques à diffusion

Modèle De Diffusion

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

CharacterShot : Animation 4D contrôlable et cohérente de personnages

Image Vers Vidéo

Génération 3D

Junyao Gao, Jiaxing Li, Wenran Liu, et al.

Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle

Apprentissage Par Renforcement

Réponse Aux Questions Intelligente

Jiaxuan Gao, Wei Fu, Minyang Xie, et al.

Matrix-3D : Génération de mondes 3D omnidirectionnels explorables

Génération 3D

Image Vers Vidéo

Zhongqi Yang, Wenhang Ge, Yuqi Li, et al.

WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage

Réponse À Des Questions Visuelles

Xinyu Geng, Peng Xia, Zhen Zhang, et al.

Rapport technique Marco-Voice

Fengping Tian, Chenyang Lyu, Xuanfan Ni, et al.

Aperçu de Kimina-Prover : Vers de grands modèles de raisonnement formel par apprentissage par renforcement

Haiming Wang, Mert Unsal, Xiaohan Lin, et al.

PyVeritas : Vérification de Python par transpilation basée sur les LLM et vérification bornée de modèles pour C

Pedro Orvalho, Marta Kwiatkowska

Agents de mémoire intrinsèque : systèmes multi-agents LLM hétérogènes par le biais d'une mémoire contextuelle structurée

Sizhe Yuen, Francisco Gomez Medina, Ting Su, et al.

Conception d’éditeurs génomiques hautement fonctionnels par modélisation des séquences CRISPR-Cas

IA Pour La Science

Traitement Du Langage Naturel

Jeffrey A. Ruffolo, Stephen Nayfach, Joseph Gallagher, et al.

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

Cheng Qian, Zuxin Liu, Akshara Prabhakar, et al.

SONAR-LLM : Transformer autoregressive qui pense en embeddings de phrases et parle en tokens

Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, et al.

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Affinage Supervisé

Zhenpeng Su, Leiyu Pan, Xue Bai, et al.

Omni-Effects : Génération unifiée et contrôlable spatialement d'effets visuels

Image Vers Vidéo

Texte Vers Vidéo

Fangyuan Mao, Aiming Hao, Jintao Chen, et al.

WideSearch : Benchmarking de l'information large et agente

Ryan Wong, Jiawei Wang, Junjie Zhao, et al.

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

Wenhan Liu, Xinyu Ma, Weiwei Sun, et al.

AdaptFlow : Optimisation adaptative des flux de travail par méta-apprentissage

Runchuan Zhu, Bowen Jiang, Lingrui Mei, et al.

Collaboration multi-agents guidée par un médiateur entre modèles open-source pour la prise de décision médicale

Réponse À Des Questions Visuelles

Kaitao Chen, Mianxin Liu, Daoming Zong, et al.

Adaptation des modèles vision-langage sans étiquettes : une revue complète

Représentation Multimodale

Hao Dong, Lijun Sheng, Jian Liang, et al.

GENIE : Encodage Gaussien pour l'Édition Interactive des Champs de Radiance Neuronaux

Vision Machine 3D

Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.

Voir, écouter, se souvenir et raisonner : un agent multimodal doté d'une mémoire à long terme

Voir, écouter, se souvenir et raisonner : un agent multimodal doté d'une mémoire à long terme

Lin Long, Yichen He, Wentao Ye, et al.

Les LLMs à diffusion peuvent effectuer une inférence plus rapide que l'AR grâce à la contrainte de diffusion discrète

Les LLMs à diffusion peuvent effectuer une inférence plus rapide que l'AR grâce à la contrainte de diffusion discrète

Modèle De Diffusion

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld : Système multi-agents dynamique avec manœuvrabilité stable pour une résolution robuste du problème GAIA

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board : Une approche sans entraînement pour la génération expressive de storyboards

Texte Vers Image

Génération D'images

David Dinkevich, Matan Levy, Omri Avrahami, et al.

Stand-In : un contrôle d'identité léger et plug-and-play pour la génération vidéo

Génération De Vidéo

Image Vers Vidéo

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1 : Vers un raisonnement Long-CoT explicite dans la découverte de molécules

Affinage Supervisé

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron : modèles de raisonnement efficaces

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Compréhension De Document

Récupération De Documents Visuels

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images

Texte Vers Image

Jeu De Données

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

Coloration virtuelle de tissus sans marqueur dans la spectrométrie de masse par imagerie

Vision Par Ordinateur

Compréhension D'images

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage

Génération De Code

Représentation Multimodale

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch : un cadre de recherche profonde hiérarchique pour les entreprises intégrant les recherches locales et web

Génération Augmentée Par La Recherche

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

Le temps est une caractéristique : exploitation des dynamiques temporelles dans les modèles linguistiques à diffusion

Modèle De Diffusion

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

CharacterShot : Animation 4D contrôlable et cohérente de personnages

Image Vers Vidéo

Génération 3D

Junyao Gao, Jiaxing Li, Wenran Liu, et al.

Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle

Apprentissage Par Renforcement

Réponse Aux Questions Intelligente

Jiaxuan Gao, Wei Fu, Minyang Xie, et al.

Matrix-3D : Génération de mondes 3D omnidirectionnels explorables

Génération 3D

Image Vers Vidéo

Zhongqi Yang, Wenhang Ge, Yuqi Li, et al.

WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage

Réponse À Des Questions Visuelles

Xinyu Geng, Peng Xia, Zhen Zhang, et al.

Rapport technique Marco-Voice

Fengping Tian, Chenyang Lyu, Xuanfan Ni, et al.

Aperçu de Kimina-Prover : Vers de grands modèles de raisonnement formel par apprentissage par renforcement

Haiming Wang, Mert Unsal, Xiaohan Lin, et al.

PyVeritas : Vérification de Python par transpilation basée sur les LLM et vérification bornée de modèles pour C

Pedro Orvalho, Marta Kwiatkowska

Agents de mémoire intrinsèque : systèmes multi-agents LLM hétérogènes par le biais d'une mémoire contextuelle structurée

Sizhe Yuen, Francisco Gomez Medina, Ting Su, et al.

Conception d’éditeurs génomiques hautement fonctionnels par modélisation des séquences CRISPR-Cas

IA Pour La Science

Traitement Du Langage Naturel

Jeffrey A. Ruffolo, Stephen Nayfach, Joseph Gallagher, et al.

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

Cheng Qian, Zuxin Liu, Akshara Prabhakar, et al.

SONAR-LLM : Transformer autoregressive qui pense en embeddings de phrases et parle en tokens

Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, et al.

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Affinage Supervisé

Zhenpeng Su, Leiyu Pan, Xue Bai, et al.

Omni-Effects : Génération unifiée et contrôlable spatialement d'effets visuels

Image Vers Vidéo

Texte Vers Vidéo

Fangyuan Mao, Aiming Hao, Jintao Chen, et al.

WideSearch : Benchmarking de l'information large et agente

Ryan Wong, Jiawei Wang, Junjie Zhao, et al.

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

Wenhan Liu, Xinyu Ma, Weiwei Sun, et al.

AdaptFlow : Optimisation adaptative des flux de travail par méta-apprentissage

Runchuan Zhu, Bowen Jiang, Lingrui Mei, et al.

Collaboration multi-agents guidée par un médiateur entre modèles open-source pour la prise de décision médicale

Réponse À Des Questions Visuelles

Kaitao Chen, Mianxin Liu, Daoming Zong, et al.

Adaptation des modèles vision-langage sans étiquettes : une revue complète

Représentation Multimodale

Hao Dong, Lijun Sheng, Jian Liang, et al.

GENIE : Encodage Gaussien pour l'Édition Interactive des Champs de Radiance Neuronaux

Vision Machine 3D

Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.

AWorld : Système multi-agents dynamique avec manœuvrabilité stable pour une résolution robuste du problème GAIA

Story2Board : Une approche sans entraînement pour la génération expressive de storyboards

Stand-In : un contrôle d'identité léger et plug-and-play pour la génération vidéo

Mol-R1 : Vers un raisonnement Long-CoT explicite dans la découverte de molécules

Llama-Nemotron : modèles de raisonnement efficaces

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images

Coloration virtuelle de tissus sans marqueur dans la spectrométrie de masse par imagerie

VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage

HierSearch : un cadre de recherche profonde hiérarchique pour les entreprises intégrant les recherches locales et web

Le temps est une caractéristique : exploitation des dynamiques temporelles dans les modèles linguistiques à diffusion

CharacterShot : Animation 4D contrôlable et cohérente de personnages

Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle

Matrix-3D : Génération de mondes 3D omnidirectionnels explorables

WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage

Rapport technique Marco-Voice

Aperçu de Kimina-Prover : Vers de grands modèles de raisonnement formel par apprentissage par renforcement

PyVeritas : Vérification de Python par transpilation basée sur les LLM et vérification bornée de modèles pour C

Agents de mémoire intrinsèque : systèmes multi-agents LLM hétérogènes par le biais d'une mémoire contextuelle structurée

Conception d’éditeurs génomiques hautement fonctionnels par modélisation des séquences CRISPR-Cas

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

SONAR-LLM : Transformer autoregressive qui pense en embeddings de phrases et parle en tokens

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Omni-Effects : Génération unifiée et contrôlable spatialement d'effets visuels

WideSearch : Benchmarking de l'information large et agente

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

AdaptFlow : Optimisation adaptative des flux de travail par méta-apprentissage

Collaboration multi-agents guidée par un médiateur entre modèles open-source pour la prise de décision médicale

Adaptation des modèles vision-langage sans étiquettes : une revue complète

GENIE : Encodage Gaussien pour l'Édition Interactive des Champs de Radiance Neuronaux

AWorld : Système multi-agents dynamique avec manœuvrabilité stable pour une résolution robuste du problème GAIA

Story2Board : Une approche sans entraînement pour la génération expressive de storyboards

Stand-In : un contrôle d'identité léger et plug-and-play pour la génération vidéo

Mol-R1 : Vers un raisonnement Long-CoT explicite dans la découverte de molécules

Llama-Nemotron : modèles de raisonnement efficaces

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Echo-4o : Exploiter la puissance des images synthétiques GPT-4o pour améliorer la génération d'images

Coloration virtuelle de tissus sans marqueur dans la spectrométrie de masse par imagerie

VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage

HierSearch : un cadre de recherche profonde hiérarchique pour les entreprises intégrant les recherches locales et web

Le temps est une caractéristique : exploitation des dynamiques temporelles dans les modèles linguistiques à diffusion

CharacterShot : Animation 4D contrôlable et cohérente de personnages

Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle

Matrix-3D : Génération de mondes 3D omnidirectionnels explorables

WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage

Rapport technique Marco-Voice

Aperçu de Kimina-Prover : Vers de grands modèles de raisonnement formel par apprentissage par renforcement

PyVeritas : Vérification de Python par transpilation basée sur les LLM et vérification bornée de modèles pour C

Agents de mémoire intrinsèque : systèmes multi-agents LLM hétérogènes par le biais d'une mémoire contextuelle structurée

Conception d’éditeurs génomiques hautement fonctionnels par modélisation des séquences CRISPR-Cas

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

SONAR-LLM : Transformer autoregressive qui pense en embeddings de phrases et parle en tokens

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Omni-Effects : Génération unifiée et contrôlable spatialement d'effets visuels

WideSearch : Benchmarking de l'information large et agente

ReasonRank : Renforcer le classement des passages grâce à une forte capacité de raisonnement

AdaptFlow : Optimisation adaptative des flux de travail par méta-apprentissage

Collaboration multi-agents guidée par un médiateur entre modèles open-source pour la prise de décision médicale

Adaptation des modèles vision-langage sans étiquettes : une revue complète

GENIE : Encodage Gaussien pour l'Édition Interactive des Champs de Radiance Neuronaux