HyperAIHyperAI

Command Palette

Search for a command to run...

Améliorer la Fiabilité des Agents IA avec des Circuits de Décision Robustes

Atteindre la Certitude des Agents LLM avec des Circuits de Décision Basés sur l'IA Les agents d'intelligence artificielle (IA) ont révolutionné la manière dont les tâches sont automatisées. Ils peuvent interagir avec leur environnement, rédiger des articles, prendre des actions au nom de l'utilisateur et simplifier les aspects complexes de la gestion des processus. Cependant, même avec une précision proche des 100%, ces agents peuvent commettre des erreurs, ce qui nécessite souvent un contrôle humain pour assurer la fiabilité. Ce problème se pose particulièrement lorsque le processus implique des données sensibles, comme la catégorisation des appels téléphoniques clients. Le Problème de la Catégorisation des Appels Téléphoniques Clients Prenons l'exemple d'un processus de catégorisation des appels client : même un agent IA avec une précision de 99.95% peut faire 5 erreurs sur 10,000 appels. Le défi est que l'agent ne peut pas identifier les 5 appels erronés, obliger à un examen humain de tous les appels, ce qui crée un goulot d'étranglement dans le processus. Technique LLM-as-a-Judge Une approche consiste à utiliser une deuxième instance LLM pour juger l'exactitude des sorties de la première. Cependant, cette méthode est imparfaite car le juge LLM peut également être inexact. Cette double imprecision peut aboutir à une matrice de confusion contenant des vrais positifs, faux positifs, faux négatifs et vrais négatifs. Autrement dit, une entrée correctement catégorisée peut être jugée incorrecte, et vice versa. Circuits de Décision IA : Une Solution Robuste Pour améliorer la confiance et la fiabilité des processus agentiques, nous pouvons nous inspirer des systèmes électroniques et des principes de théorie de l'information. Voici les composantes principales des circuits de décision IA : Traitement Redondant : Plusieurs agents IA traitent la même entrée indépendamment, similaire aux circuits redondants des processeurs modernes. Mécanismes de Consensus : Les sorties de décision sont combinées par des systèmes de vote ou des moyennes pondérées, comme dans les circuits électroniques tolérants aux fautes. Agents Validateurs : Des validateurs IA spéciaux vérifient la plausibilité des sorties, agissant comme des codes de détection d'erreur. Intégration Humaine Stratégique : Des validations humaines stratégiques à des points clés du processus, similaire à l'examen humain dans des systèmes critiques. Fondements Mathématiques des Circuits de Décision IA La fiabilité de ces systèmes peut être quantifiée en utilisant la théorie des probabilités. Pour un agent unique avec une précision de 90%, la probabilité d'échec est de 10%. Pour deux agents indépendants, la probabilité que les deux échouent sur la même entrée est de 1%. Ainsi, pour 10,000 appels, le nombre attendu d'échecs est de 100. Schéma de Décision et Correction d'Erreurs Quand le Contrôle Qualité Échoue : Si le validateur rejette l'analyse primaire, le système essaie l'analyse de secours. Si celle-ci échoue également, l'affaire est marquée pour revue humaine. Exemple en langage courant : « Si quelque chose semble suspect avec notre première réponse, utilisons notre méthode de secours. Si elle reste suspecte, impliquons un humain. » Gestion des Conflits : Si le contrôle négatif indique qu'il n'y a pas assez d'informations pour classer mais que l'analyse primaire a trouvé une catégorie, le système consulte l’analyse de secours pour trancher. Si ceux-ci ne parviennent pas à s'accorder, l'affaire est marquée pour revue humaine. Exemple en langage courant : « Si un expert dit ‘c’est impossible de classer’ mais l’autre dit le contraire, il faut un arbitre ou un jugement humain. » Quand les Experts Sont d'Accord : Si les analyses primaire et de secours atteignent la même conclusion, le système marque l'affaire avec une « haute confiance ». Exemple en langage courant : « Si deux experts indépendants avec différentes méthodes arrivent à la même conclusion, ils peuvent avoir raison. » Gestion Par Défaut : Si les cas spéciaux ne s'appliquent pas, le système utilise l'analyse primaire avec une « confiance moyenne ». Si même celle-ci ne trouve pas de catégorie, l'affaire est marquée pour revue humaine. Expérience Pratique : Catégorisation des Appels du Departement des Eaux de Philadelphie En 2015, le département des eaux de Philadelphie a publié des comptes rendus des appels par catégorie. Un agent IA peut rapidement écouter et catégoriser ces appels, ce qui est crucial pour résoudre rapidement les problèmes urgents. Voici quelques exemples de transcriptions fictives générées par un LLM : json { "calls": [ { "id": 5, "type": "ABATEMENT", "customer_input": "I need to report an abandoned property that has a major leak. Water is pouring out and flooding the sidewalk." }, { "id": 7, "type": "AMR (METERING)", "customer_input": "Can someone check my water meter? The digital display is completely blank and I can't read it." }, { "id": 15, "type": "BTR/O (BAD TASTE & ODOR)", "customer_input": "My tap water smells like rotten eggs. Is it safe to drink?" } ] } L'évaluation purement basée sur un LLM, en utilisant Claude 3.7 Sonnet, donne une précision globale de 91%. Cependant, sans connaissance préalable, tous les appels devraient être revus pour identifier les 9 appels mal catégorisés. En appliquant le circuit de décision robuste, nous obtenons une précision globale de 87% mais une précision de 92.5% sur les réponses à « haute confiance ». Cela nous permet de cerner pourquoi certaines réponses à « haute confiance » étaient inexactes et d’améliorer itérativement le système. Optimisation de la Haute Confiance Actuellement, les réponses sont marquées comme « haute confiance » lorsque les analyses primaire et de secours sont en accord. Pour améliorer la précision, nous pouvons ajouter plus de critères : ```python Logique modifiée pour une haute confiance if (primary_result['call_type'] == backup_result['call_type'] and primary_result['call_type'] is not None and validation_result and negative_check == 'yes' and additional_validation_metrics > threshold): return {'call_type': primary_result['call_type'], "confidence": "high"} ``` Techniques de Validation Supplémentaires Analyse Tertiaire : Ajouter une troisième méthode indépendante. Appariement Historique : Comparer avec des résultats historiquement corrects. Test Adversarial : Appliquer de petites variations à l'entrée pour vérifier la stabilité de la classification. Formule Générale pour les Interventions Humaines Le nombre de cas nécessitant une intervention humaine peut être calculé par : [ H = N \times (1 - (1 - p)^k) ] où ( H ) est le nombre de cas nécessitant une intervention humaine, ( N ) le nombre total d'exécutions, ( p ) la probabilité d'échec d'un agent, et ( k ) le nombre d'agents. Dans notre exemple, environ 352 interventions humaines seraient nécessaires sur 10,000 exécutions. Fonction Coût La fonction coût peut aider à optimiser le système : [ C = N_{parsers} \times C_{parser} + H \times C_{human} + E_{final} \times C_{error} ] où ( N_{parsers} ) est le nombre de parsers, ( C_{parser} ) le coût par parser, ( H ) le nombre d'interventions humaines, ( C_{human} ) le coût par intervention humaine, ( E_{final} ) le nombre d'erreurs non détectées, et ( C_{error} ) le coût par erreur non détectée. Par exemple, si le coût d'intervention humaine est trop élevé (\$70,400), nous pouvons nous concentrer sur l'amélioration des résultats à « haute confiance ». Si le coût d'erreurs non détectées est trop élevé (\$48,000), nous pouvons introduire plus de parsers ou améliorer le processus de validation. Options d’Amélioration Ajouter un Noveau Parser : Avec une précision de 50%, cela réduit les erreurs non détectées, mais augmente les coûts de parsers et d'interventions humaines. Améliorer les Parsers Existants : En augmentant leur précision de 10% chacun, ce qui peut être difficile ou impossible en fonction de la complexité. Améliorer les Agents Validateurs : En augmentant leur précision de 15%, ce qui accroît également les coûts. Conclusion et Perspectives Futures La fiabilité des systèmes IA devient cruciale à mesure qu'ils intègrent des aspects essentiels des affaires et de la société. Les circuits de décision IA offrent une approche pensivement conçue pour combiner plusieurs perspectives avec une supervision humaine stratégique, améliorant ainsi l'efficacité et la confiance. Tout comme les électroniques numériques ont évolué pour devenir fiables, les systèmes IA suivent le même chemin. L’objectif n’est plus de construire les modèles les plus puissants, mais de développer des architectures mission-critiques qui garantissent mathématiquement la précision. Évaluation Professionnelle de l'Événement Les professionnels de l'IA saluent cette approche pour son potentiel à réduire les erreurs tout en minimisant l’implication humaine superflue. Cette méthode pourrait faciliter l'intégration de l'IA dans des domaines hautement réglementés où la fiabilité est essentielle. L'entreprise RobustCallClassifier, dédiée à la conception de circuits de décision IA, représente une avancée significative dans cette direction, offrant des solutions pratiques et économiques pour améliorer la confiance dans les décisions automatisées. Cette innovation promet de transformer la gestion des processus clients, rendant les systèmes plus robustes et efficaces, et contribue à la réalisation de l'IA de nouvelle génération, où la fiabilité est plus qu'une promesse : une garantie mathématique.

Liens associés

Améliorer la Fiabilité des Agents IA avec des Circuits de Décision Robustes | Articles tendance | HyperAI