HyperAIHyperAI

Command Palette

Search for a command to run...

GigaCheck : Détection du contenu généré par les LLM

Irina Tolstykh Aleksandra Tsybina Sergey Yakubson Aleksandr Gordeev Vladimir Dokholyan Maksim Kuprashevich

Résumé

Avec l'amélioration croissante de la qualité et de la diffusion des assistants basés sur les grands modèles linguistiques (LLM), le volume de contenu généré par ces modèles s'accroît rapidement. Dans de nombreux cas et tâches, ces textes sont déjà indiscernables de ceux écrits par des humains, et la qualité de génération ne tend qu'à s'améliorer. En revanche, les méthodes de détection se développent plus lentement, rendant difficile la prévention d'un usage inapproprié des technologies d'IA générative.Dans cette étude, nous examinons la tâche de détection du texte généré en proposant GigaCheck. Notre recherche explore deux approches : (i) distinguer les textes écrits par des humains de ceux générés par des LLM, et (ii) détecter les intervalles générés par des LLM dans les textes collaboratifs Homme-Machine. Pour la première tâche, notre méthode utilise un grand modèle linguistique généraliste, exploitant ses capacités linguistiques étendues pour l'affiner efficacement à la tâche descendante de détection du texte généré par des LLM, atteignant une performance élevée même avec peu de données. Pour la deuxième tâche, nous proposons une nouvelle approche qui combine des techniques de vision par ordinateur et de traitement du langage naturel. Plus précisément, nous utilisons un grand modèle linguistique généraliste affiné conjointement avec un modèle de détection similaire au DETR (DETR-like detection model), adapté à partir de la vision par ordinateur, pour localiser les intervalles générés par l'IA au sein du texte.Nous évaluons GigaCheck sur cinq jeux de données de classification contenant des textes en anglais et trois jeux de données conçus pour l'analyse du texte collaboratif Homme-Machine. Nos résultats montrent que GigaCheck surpasse les méthodes précédentes, même dans des configurations hors distribution (out-of-distribution settings), établissant une base solide sur tous les jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp