@misc{caswell2025smol, title={{SMOL: Professionally translated parallel data for 115 under-represented languages}}, author={Isaac Caswell and Elizabeth Nielsen and Jiaming Luo and Colin Cherry and Geza Kovacs and Hadar Shemtov and Partha Talukdar and Dinesh Tewari and Baba Mamadi Diane and Koulako Moussa Doumbouya and Djibrila Diane and Solo Farabado Cissé and Edoardo Ferrante and Alessandro Guasoni and Mamadou K. Keita and Sudhamoy DebBarma and Ali Kuzhuget and David Anugraha and Muhammad Ravi Shulthan Habibi and Sina Ahmadi and Mingfei Lau and Jonathan Eng}, year={2025}, eprint={2502.12301}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.12301}, } @inproceedings{jones-etal-2023-gatitos, title = {{"GATITOS: Using a New Multilingual Lexicon for Low-resource Machine Translation"}}, author = "Jones, Alexander and Caswell, Isaac and Firat, Orhan and Saxena, Ishank", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.26/", doi = "10.18653/v1/2023.emnlp-main.26", pages = "371--405", abstract = "Modern machine translation models and language models are able to translate without having been trained on parallel data, greatly expanding the set of languages that they can serve. However, these models still struggle in a variety of predictable ways, a problem that cannot be overcome without at least some trusted bilingual data. This work expands on a cheap and abundant resource to combat this problem: bilingual lexica. We test the efficacy of bilingual lexica in a real-world set-up, on 200-language translation models trained on web-crawled text. We present several findings: (1) using lexical data augmentation, we demonstrate sizable performance gains for unsupervised translation; (2) we compare several families of data augmentation, demonstrating that they yield similar improvements, and can be combined for even greater improvements; (3) we demonstrate the importance of carefully curated lexica over larger, noisier ones, especially with larger models; and (4) we compare the efficacy of multilingual lexicon data versus human-translated parallel data. Based on results from (3), we develop and open-source GATITOS, a high-quality, curated dataset in 168 tail languages, one of the first human-translated resources to cover many of these languages." }

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 2 mois

Organisation

URL du document

2502.12301

Licence

CC BY 4.0

Balises

Apprentissage Automatique

Traduction

SMOL (Set for Maximal Overall Leverage) est un jeu de données de traduction professionnel publié par Google en 2025. Il vise à entraîner des modèles de traduction pour les langues à faibles ressources et à fournir des données parallèles de haute qualité. Parmi les articles de recherche associés, on peut citer… SMOL : Données parallèles traduites par des professionnels pour 115 langues sous-représentées . Cet ensemble de données comprend des textes traduits professionnellement dans 221 langues, dont l'amharique, le swahili et l'afar, ainsi que dans des langues moins fréquemment annotées ou des langues régionales pour lesquelles les données sont rares. Il couvre un large éventail de paires de langues, incluant des textes fournis par des traducteurs professionnels et des bénévoles, et y ajoute des données verticales et des annotations factuelles issues du domaine médical pour certaines langues.

Composition de l'ensemble de données :

SmolDoc : Traduction au niveau du document, couvrant 130 paires de langues (129 langues indépendantes) ;
SmolSent : Traduction au niveau de la phrase, couvrant 114 paires de langues (116 langues indépendantes) ;
GATITOS : Un outil de traduction au niveau du mot couvrant 181 paires de langues (183 langues indépendantes), principalement utilisé comme dictionnaire multilingue ;
SmolDoc-factuality-annotations : Annotations factuelles et raisonnement pour 661 documents dans SmolDoc.

Citations

@misc{caswell2025smol,
title={{SMOL: Professionally translated parallel data for 115 under-represented languages}},
author={Isaac Caswell and Elizabeth Nielsen and Jiaming Luo and Colin Cherry and Geza Kovacs and Hadar Shemtov and Partha Talukdar and Dinesh Tewari and Baba Mamadi Diane and Koulako Moussa Doumbouya and Djibrila Diane and Solo Farabado Cissé and Edoardo Ferrante and Alessandro Guasoni and Mamadou K. Keita and Sudhamoy DebBarma and Ali Kuzhuget and David Anugraha and Muhammad Ravi Shulthan Habibi and Sina Ahmadi and Mingfei Lau and Jonathan Eng},
year={2025},
eprint={2502.12301},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.12301},
}
@inproceedings{jones-etal-2023-gatitos,
title = {{"GATITOS: Using a New Multilingual Lexicon for Low-resource Machine Translation"}},
author = "Jones, Alexander  and
Caswell, Isaac  and
Firat, Orhan  and
Saxena, Ishank",
editor = "Bouamor, Houda  and
Pino, Juan  and
Bali, Kalika",
booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2023",
address = "Singapore",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.emnlp-main.26/",
doi = "10.18653/v1/2023.emnlp-main.26",
pages = "371--405",
abstract = "Modern machine translation models and language models are able to translate without having been trained on parallel data, greatly expanding the set of languages that they can serve. However, these models still struggle in a variety of predictable ways, a problem that cannot be overcome without at least some trusted bilingual data. This work expands on a cheap and abundant resource to combat this problem: bilingual lexica. We test the efficacy of bilingual lexica in a real-world set-up, on 200-language translation models trained on web-crawled text. We present several findings: (1) using lexical data augmentation, we demonstrate sizable performance gains for unsupervised translation; (2) we compare several families of data augmentation, demonstrating that they yield similar improvements, and can be combined for even greater improvements; (3) we demonstrate the importance of carefully curated lexica over larger, noisier ones, especially with larger models; and (4) we compare the efficacy of multilingual lexicon data versus human-translated parallel data. Based on results from (3), we develop and open-source GATITOS, a high-quality, curated dataset in 168 tail languages, one of the first human-translated resources to cover many of these languages."
}

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Base De Données De Connaissances TACK Targeted Chimera

il y a un mois

Ensemble De Données Mondial Sur La Pollution Atmosphérique Et l'indice De Qualité De l'air

il y a un mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Composition de l'ensemble de données :

Citations

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Composition de l'ensemble de données :

Citations

undefined

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Mondial Sur La Pollution Atmosphérique Et l'indice De Qualité De l'air

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Composition de l'ensemble de données :

Citations

undefined

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Mondial Sur La Pollution Atmosphérique Et l'indice De Qualité De l'air

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Mondial Sur La Pollution Atmosphérique Et l'indice De Qualité De l'air

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

undefined

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Mondial Sur La Pollution Atmosphérique Et l'indice De Qualité De l'air

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval