Command Palette
Search for a command to run...
مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات
SMOL (مجموعة لتحقيق أقصى استفادة شاملة) هي مجموعة بيانات ترجمة احترافية أطلقتها جوجل عام 2025. تهدف إلى تدريب نماذج الترجمة للغات ذات الموارد المحدودة وتوفير بيانات متوازية عالية الجودة. تشمل الأبحاث ذات الصلة... SMOL: بيانات متوازية مترجمة باحترافية لـ 115 لغة غير ممثلة تمثيلاً كافياً . تتضمن هذه المجموعة من البيانات نصوصًا مترجمة باحترافية إلى 221 لغة، بما في ذلك الأمهرية والسواحيلية والعفارية، بالإضافة إلى لغات أقل شيوعًا في البيانات/لغات إقليمية ذات بيانات شحيحة. وهي تغطي نطاقًا واسعًا من أزواج اللغات، بما في ذلك نصوص ساهم بها مترجمون محترفون ومتطوعون، وتضيف بيانات متخصصة وشروحًا واقعية من المجال الطبي لبعض اللغات.
تكوين مجموعة البيانات:
- SmolDoc: ترجمة على مستوى المستند، تغطي 130 زوجًا من اللغات (129 لغة مستقلة)؛
- SmolSent: ترجمة على مستوى الجملة، تغطي 114 زوجًا من اللغات (116 لغة مستقلة)؛
- GATITOS: أداة ترجمة على مستوى الكلمات تغطي 181 زوجًا من اللغات (183 لغة مستقلة)، وتستخدم في المقام الأول كقاموس متعدد اللغات؛
- SmolDoc-factuality-annotations: التعليقات التوضيحية الواقعية والاستدلال لـ 661 مستندًا في SmolDoc.
الاقتباسات
@misc{caswell2025smol,
title={{SMOL: Professionally translated parallel data for 115 under-represented languages}},
author={Isaac Caswell and Elizabeth Nielsen and Jiaming Luo and Colin Cherry and Geza Kovacs and Hadar Shemtov and Partha Talukdar and Dinesh Tewari and Baba Mamadi Diane and Koulako Moussa Doumbouya and Djibrila Diane and Solo Farabado Cissé and Edoardo Ferrante and Alessandro Guasoni and Mamadou K. Keita and Sudhamoy DebBarma and Ali Kuzhuget and David Anugraha and Muhammad Ravi Shulthan Habibi and Sina Ahmadi and Mingfei Lau and Jonathan Eng},
year={2025},
eprint={2502.12301},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.12301},
}
@inproceedings{jones-etal-2023-gatitos,
title = {{"GATITOS: Using a New Multilingual Lexicon for Low-resource Machine Translation"}},
author = "Jones, Alexander and
Caswell, Isaac and
Firat, Orhan and
Saxena, Ishank",
editor = "Bouamor, Houda and
Pino, Juan and
Bali, Kalika",
booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2023",
address = "Singapore",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.emnlp-main.26/",
doi = "10.18653/v1/2023.emnlp-main.26",
pages = "371--405",
abstract = "Modern machine translation models and language models are able to translate without having been trained on parallel data, greatly expanding the set of languages that they can serve. However, these models still struggle in a variety of predictable ways, a problem that cannot be overcome without at least some trusted bilingual data. This work expands on a cheap and abundant resource to combat this problem: bilingual lexica. We test the efficacy of bilingual lexica in a real-world set-up, on 200-language translation models trained on web-crawled text. We present several findings: (1) using lexical data augmentation, we demonstrate sizable performance gains for unsupervised translation; (2) we compare several families of data augmentation, demonstrating that they yield similar improvements, and can be combined for even greater improvements; (3) we demonstrate the importance of carefully curated lexica over larger, noisier ones, especially with larger models; and (4) we compare the efficacy of multilingual lexicon data versus human-translated parallel data. Based on results from (3), we develop and open-source GATITOS, a high-quality, curated dataset in 168 tail languages, one of the first human-translated resources to cover many of these languages."
}
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.