Skip-Thought Vectors Les Skip-Thought Vectors sont une méthode d'apprentissage automatique utilisée pour représenter les phrases sous forme de vecteurs. Cette technique, introduite par Kiros et al. en 2015, s'inspire du modèle Word2Vec mais est appliquée à l'échelle des phrases plutôt que des mots. L'idée principale est d'apprendre des représentations de phrases qui peuvent prédire les phrases voisines dans un corpus textuel. Les Skip-Thought Vectors ont été largement utilisés dans diverses tâches de traitement du langage naturel, telles que la classification de sentiments, la génération de résumés et la traduction automatique.

Nous décrivons une approche d'apprentissage non supervisé d'un encodeur de phrases générique et distribué. En utilisant la continuité du texte provenant de livres, nous formons un modèle encodeur-décodeur qui tente de reconstruire les phrases environnantes d'un passage encodé. Les phrases partageant des propriétés sémantiques et syntaxiques sont ainsi mappées à des représentations vectorielles similaires. Nous introduisons ensuite une méthode simple d'expansion du vocabulaire pour encoder les mots qui n'ont pas été vus lors de l'entraînement, ce qui nous permet d'étendre notre vocabulaire à un million de mots. Après avoir entraîné notre modèle, nous extrayons et évaluons nos vecteurs avec des modèles linéaires sur 8 tâches : la pertinence sémantique, la détection de paraphrases, le classement image-phrase, la classification du type de question et quatre ensembles de données de référence sur l'opinion et la subjectivité. Le résultat final est un encodeur prêt à l'emploi capable de produire des représentations de phrases très génériques, robustes et performantes en pratique. Nous mettrons notre encodeur à disposition du public.