HyperAIHyperAI
il y a 2 mois

Reconnaissance rapide et précise d'entités avec des convolutions dilatées itérées

Emma Strubell; Patrick Verga; David Belanger; Andrew McCallum
Reconnaissance rapide et précise d'entités avec des convolutions dilatées itérées
Résumé

Aujourd'hui, alors que de nombreux praticiens exécutent des traitements de base en TALN sur l'ensemble du Web et des flux de trafic à grande échelle, les méthodes plus rapides sont essentielles pour économiser du temps et réduire les coûts énergétiques. Les récentes avancées dans le matériel GPU ont conduit à l'émergence des LSTM bidirectionnels comme méthode standard pour obtenir des représentations vectorielles par jeton servant d'entrée aux tâches d'étiquetage telles que la reconnaissance d'entités nommées (NER), souvent suivies par une prédiction dans un CRF en chaîne linéaire. Bien qu'expressifs et précis, ces modèles ne parviennent pas à pleinement exploiter le parallélisme des GPU, limitant ainsi leur efficacité computationnelle. Cet article propose une alternative plus rapide aux LSTM bidirectionnels pour la NER : les Réseaux Neuronaux Convolutifs Dilatés Itérés (ID-CNNs), qui offrent une meilleure capacité que les CNN traditionnels pour traiter des contextes larges et effectuer des prédictions structurées. Contrairement aux LSTM dont le traitement séquentiel sur des phrases de longueur N nécessite un temps O(N) même en présence de parallélisme, les ID-CNNs permettent des convolutions de profondeur fixe d'être exécutées en parallèle sur l'ensemble des documents. Nous décrivons une combinaison distinctive de structure réseau, partage de paramètres et procédures d'entraînement qui permettent des accélérations drastiques allant jusqu'à 14-20 fois lors du temps de test tout en conservant une précision comparable à celle du Bi-LSTM-CRF. De plus, les ID-CNNs formés pour agréger le contexte provenant de l'ensemble du document sont encore plus précis tout en maintenant des vitesses 8 fois supérieures lors du temps de test.