il y a 6 mois

Résumé

La capacité des grands modèles linguistiques (LLM) à suivre des instructions a permis de développer une nouvelle génération de systèmes fondés sur les LLM, capables de s'attaquer à des tâches complexes telles que la modification de grandes bases de code. En raison de la grande sensibilité et de l'imprévisibilité du comportement des LLM face à des variations dans les instructions, des outils d'évaluation robustes sont essentiels pour guider l'évolution future de ces systèmes. Nous proposons RES-Q, un benchmark basé sur des instructions en langage naturel pour évaluer les systèmes de modification de dépôts (repository editing systems), composé de 100 tâches de modification de dépôts soigneusement conçues à partir de commits réels sur GitHub. Étant donné une instruction d'édition et un dépôt de code, RES-Q évalue la capacité d'un système LLM à interpréter l'instruction, à naviguer dans le dépôt afin de recueillir les informations pertinentes, et à générer une modification appropriée répondant aux critères spécifiés. Nous soutenons que cette approche d'évaluation permet de surmonter les limites des benchmarks traditionnels et offre une évaluation plus globale des capacités d'un modèle. Nous évaluons divers LLM d'avant-garde en tant qu'agents linguistiques dans un système de modification de dépôts basé sur Qurrent OS, notre logiciel de développement d'agents linguistiques. Malgré une différence de seulement 1 % en termes de performance pass@1 sur HumanEval, nous constatons que Claude Sonnet 3.5 surpasse GPT-4o de 12 % en pass@1 sur RES-Q, ce qui démontre la capacité de RES-Q à distinguer les performances des modèles, même lorsque les benchmarks traditionnels atteignent un plateau. Nous explorons également l'efficacité en termes de tokens, les corrélations de performance avec les benchmarks existants, ainsi que des écarts intéressants entre les LLM fermés et open-source. Le code et les données sont disponibles à l'adresse suivante : https://github.com/Qurrent-AI/RES-Q.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Beck LaBash August Rosedale Alex Reents Lucas Negritto Colin Wiel

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Beck LaBash August Rosedale Alex Reents Lucas Negritto Colin Wiel

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

RES-Q : Évaluation des systèmes de modèles linguistiques à grande échelle pour la modification de code à l’échelle du dépôt | Articles | HyperAI

Command Palette

RES-Q : Évaluation des systèmes de modèles linguistiques à grande échelle pour la modification de code à l’échelle du dépôt

Beck LaBash August Rosedale Alex Reents Lucas Negritto Colin Wiel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RES-Q : Évaluation des systèmes de modèles linguistiques à grande échelle pour la modification de code à l’échelle du dépôt

Beck LaBash August Rosedale Alex Reents Lucas Negritto Colin Wiel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RES-Q : Évaluation des systèmes de modèles linguistiques à grande échelle pour la modification de code à l’échelle du dépôt

Beck LaBash August Rosedale Alex Reents Lucas Negritto Colin Wiel

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters