Apprentissage de représentations hyperboliques pour une réponse rapide et efficace aux questions neuronales

Les architectures neuronales dominantes dans le domaine de la recherche de réponses sont basées sur des encodeurs récurrents ou convolutifs configurés avec des couches complexes de correspondance de mots. Étant donné que les innovations architecturales récentes consistent principalement en de nouvelles couches d'interaction de mots ou en mécanismes de correspondance basés sur l'attention, il semble bien établi que ces composants sont nécessaires pour une bonne performance. Malheureusement, le coût en mémoire et en calcul engendré par ces mécanismes complexes est indésirable pour les applications pratiques. Ainsi, cet article aborde la question de savoir s'il est possible d'atteindre une performance compétitive avec des architectures neuronales simples. Nous proposons une architecture d'apprentissage profond simple mais novatrice pour un classement et une recherche rapide et efficace des questions-réponses. Plus précisément, notre modèle proposé, \textsc{HyperQA}, est un réseau neuronal à paramètres efficaces qui surpasse d'autres modèles à paramètres intensifs tels que les Attentive Pooling BiLSTMs et les Multi-Perspective CNNs sur plusieurs benchmarks QA. La nouveauté derrière \textsc{HyperQA} réside dans un objectif de classement par paires qui modélise la relation entre les plongements (embeddings) des questions et des réponses dans l'espace hyperbolique plutôt que dans l'espace euclidien. Cela confère à notre modèle une capacité d'auto-organisation et permet la découverte automatique de hiérarchies latentes tout en apprenant les plongements des questions et des réponses. Notre modèle n'a pas besoin d'ingénierie de caractéristiques, ni de matrices de similarité, ni de mécanismes d'attention compliqués, ni de couches sure-paramétrées, et pourtant il surpassse et reste compétitif par rapport à nombreux modèles dotés de ces fonctionnalités sur plusieurs benchmarks.