HyperAI

Créez L'harmonie Familiale Et Utilisez L'ia Pour Aider Les Parents À Dissiper Les Rumeurs

il y a 7 ans
Information
Sparanoid
特色图像

Les jeunes ayant un certain niveau de culture scientifique n’ont même pas besoin de cliquer sur ces titres pour savoir qu’il s’agit de rumeurs ou d’exagérations, mais ces articles circulent chaque jour à toute vitesse dans les groupes WeChat et les cercles d’amis de la génération de nos parents.

Il est difficile de déterminer la source et l’authenticité des nouvelles dans le monde virtuel, en particulier pour les parents. Tant qu’un article mentionne des connaissances scientifiques complexes ou des institutions scientifiques obscures, ou même ajoute une certaine incitation patriotique ou sentimentale, il est plus probable qu’ils soient confondus par les rumeurs et même qu’ils fassent partie de la propagation.

De nombreuses plateformes tentent par tous les moyens de mettre en place un mécanisme de réfutation des rumeurs. Dans le passé, ce mécanisme était principalement composé de plaintes et d’un examen manuel, mais sous la forme d’un examen manuel, il ne s’agit toujours que d’une goutte d’eau dans l’océan.

Le mêmeLe monde, la même rumeur

Ce problème se produit également aux États-Unis. Le terme « rumeur » couramment utilisé en Chine est souvent traduit en anglais par « Rumor ». En fait, ce mot signifie ouï-dire ouï-dire. Les organismes de presse les plus rigoureux pourraient le traduire par « fausse rumeur », ce qui signifie faux ouï-dire.

Il est intéressant de noter que lorsque nous avons voulu comparer les types de rumeurs les plus susceptibles de se propager largement, nous avons constaté que les créateurs de rumeurs du monde entier choisissaient les nouvelles concernant le décès de célébrités.

Créez l'harmonie familiale et utilisez l'IA pour aider les parents à dissiper les rumeurs
M. Jin Yong meurt presque chaque année

Créez l'harmonie familiale et utilisez l'IA pour aider les parents à dissiper les rumeurs
Des rumeurs similaires ne sont pas rares aux États-Unis.

Utiliser l'IA pour purifier l'information

Aux États-Unis, un ingénieur nommé Aaron Edell a utilisé l'IA pour créer un « détecteur de fausses nouvelles FakeBox ». Bien que son taux de précision soit relativement élevé, le contenu n'est pas adapté au système chinois dans le contexte anglais. Deuxièmement, si l’on veut le mettre en œuvre commercialement, il reste encore beaucoup de marge de progression. Cependant, son processus de recherche sera certainement d’une grande valeur de référence pour les professionnels engagés dans des recherches similaires.

Le processus de conception du « FakeBox Fake News Detector » ne s'est pas déroulé sans heurts. Le tournant le plus important de son succès fut le fait qu'il changea son objectif, passant de l'évaluation des fausses nouvelles à l'évaluation des vraies nouvelles : la vérité est toujours cohérente, tandis que les illusions sont variées.

Voici son parcours mental lors de la conception de FakeBox :

Question 1 : Comment définir les fake news ?

La première difficulté que j’ai rencontrée était plutôt inattendue.Après avoir étudié certaines fausses nouvelles, j’ai découvert que les fausses nouvelles ne sont pas toutes fausses, que certaines nouvelles sont exagérées et que certaines nouvelles ne sont pas vérifiées. En fait, les fausses nouvelles doivent être divisées en différents types : erreurs évidentes, moitié vraies et moitié fausses, pseudoscience complète, commentaires de fausses nouvelles, etc.

Les fausses nouvelles doivent donc être soigneusement examinées et éliminées une par une.

Première expérience : résolution du problème avec un modèle d'analyse des sentiments

Au début, j'ai moi-même créé un petit outil, utilisant un robot d'exploration pour récupérer les titres, les descriptions, les auteurs et le contenu des articles, et j'ai envoyé les résultats au modèle d'analyse des sentiments. J'ai utilisé une zone de texte, ce qui est très pratique car elle permet de renvoyer rapidement les résultats. Pour chaque article, Textbox donnera un score. Un score supérieur à 5 est un retour positif, et un score inférieur à 5 est un retour négatif. J'ai également réalisé un petit algorithme pour calculer séparément les scores du titre, du contenu, de l'auteur, etc. du texte, et les additionner pour garantir que le score soit complet et intégré.

Cela a bien fonctionné au début, mais a cessé de fonctionner après avoir testé le 7e ou le 8e article. Cependant, ce prototype de conception est très proche du système de détection de rumeurs que j'avais imaginé.

Mais le résultat fut un échec.

Créez l'harmonie familiale et utilisez l'IA pour aider les parents à dissiper les rumeurs

Deuxième expérience : résolution de problèmes avec des modèles PNL

Mon ami David Hernandez m'a recommandé de former le modèle sur le texte lui-même. J'ai essayé de comprendre les caractéristiques des fausses nouvelles, telles que les sources des sites Web et les noms des auteurs, pour voir si je pouvais rapidement créer un ensemble de données pour former un modèle.

Nous avons passé quelques jours à collecter un grand nombre d’ensembles de données différents qui semblaient utiles pour la formation de modèles. Nous pensions que l'ensemble de données était suffisamment grand, mais en fait, le contenu de l'ensemble de données n'a pas été correctement classé dès le début, car certains sites Web marqués comme « faux » ou « trompeurs » contiennent parfois de vrais articles, ou transmettent simplement le contenu d'autres sites Web, de sorte que les résultats ne sont pas idéaux.

J'ai commencé à lire chaque article moi-même et j'ai passé beaucoup de temps à traiter les données. Bien que ce processus ait été très difficile, lorsque j’ai vu ces nouvelles fausses, malveillantes et même violentes ces jours-ci, j’ai commencé à douter de la civilisation favorisée par Internet. Mais j’espérais aussi que davantage de personnes pourraient utiliser de meilleurs outils pour éviter d’être empoisonnées par les rumeurs. L'ensemble de données après avoir ajouté une révision manuelle a atteint une précision d'environ 70 % lors des tests.

Cependant, cette méthode présente un défaut fatal. Après avoir essayé de vérifier ponctuellement des articles en dehors de l’ensemble de données, nous n’avons toujours pas pu déterminer correctement l’authenticité des informations.

Donc ça a quand même échoué.

Créez l'harmonie familiale et utilisez l'IA pour aider les parents à dissiper les rumeurs

La troisième expérience : ne cherchez pas de fausses nouvelles comme un ensemble de données, recherchez de vraies nouvelles

Le tournant du succès de cette affaire fut une suggestion de David qui m’a réveillé : il a suggéré que la clé pour améliorer la précision pourrait être de simplifier le problème. Peut-être que ce que nous devons faire, ce n’est pas détecter les fausses nouvelles, mais détecter les vraies nouvelles. Parce que les vraies nouvelles sont plus faciles à catégoriser : les articles sont des faits et des faits marquants, avec peu d’explications supplémentaires, et il existe de nombreuses ressources pour confirmer l’authenticité des nouvelles. J'ai donc recommencé à collecter des données.

Je divise seulement les nouvelles en deux catégories : les vraies et les non-vraies. Faux comprend la satire, les articles d’opinion, les fausses nouvelles et d’autres articles qui ne sont pas écrits de manière purement factuelle.

Cette fois-ci, nous avons réussi avec une précision de plus de 95 %.

Créez l'harmonie familiale et utilisez l'IA pour aider les parents à dissiper les rumeurs

Le modèle, appelé Fakebox, attribue un score à chaque article, et un score très bas pourrait signifier que l'article est faux, un article d'opinion, une satire ou autre chose. Et Fakebox dispose également d'un ensemble d'API REST, vous pouvez l'intégrer dans n'importe quel environnement et vous pouvez également le déployer sur Docker.

Mais il présente toujours un défaut : si l’article est trop court ou contient principalement les opinions ou les citations d’autres personnes, il peut être difficile de juger s’il est vrai ou faux.

Donc, Fakebox n’est pas la solution finale, mais Aaron Edell J’espère que ce modèle sera utile pour les articles qui doivent être identifiés comme vrais ou faux.

Créez l'harmonie familiale et utilisez l'IA pour aider les parents à dissiper les rumeurs