HyperAIHyperAI
منذ 19 أيام

تقرير تقني عن Qwen3-Omni

Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
تقرير تقني عن Qwen3-Omni
الملخص

نقدّم نموذج Qwen3-Omni، وهو نموذج متعدد الوسائط موحد يُعدّ أول نموذج يحافظ على الأداء المتفوّق في جميع المجالات (النص، الصورة، الصوت، الفيديو) دون أي تدهور مقارنة بالنماذج الأحادية الوسائط المماثلة من حيث الحجم. ويُحقق Qwen3-Omni أداءً مماثلاً لنماذج Qwen ذات الحجم نفسه في المجالات الأحادية، ويتميز بأداء ممتاز خصوصاً في المهام الصوتية. ففي 36 معياراً صوتياً وصوتياً-مرئياً، يُسجّل Qwen3-Omni أفضل أداء مفتوح المصدر في 32 معياراً، وأفضل أداء عام في 22 معياراً، متفوقاً على نماذج مغلقة المصدر قوية مثل Gemini-2.5-Pro وSeed-ASR وGPT-4o-Transcribe. ويستخدم Qwen3-Omni معمارية Thinker-Talker من نوع MoE (النموذج المُتعدد المُهارات)، التي توحّد العمليات الحسّية والإنتاجية عبر النص، والصور، والصوت، والفيديو، مما يُنتج نصاً سلساً وصوتاً طبيعياً في الزمن الفعلي. ويُدعم التفاعل النصي بلغات 119، وفهم الصوت بلغات 19، وإنتاج الصوت بلغات 10. ولتقليل زمن التأخير في أول حزمة (first-packet latency) أثناء التوليد المتسلسل، يقوم مُنتج الصوت (Talker) بتوقع ترميزات الصوت المنفصلة بشكل تتابعي باستخدام نموذج متعدد المجموعات (multi-codebook). وباستغلال القدرة التمثيلية لهذه المجموعات، تم استبدال عملية التبديد المقطعية (block-wise diffusion) المكلفة حسابياً بنموذج خفيف الوزن من نوع ConvNet سببي (causal ConvNet)، ما يُمكّن من بدء التوليد من أول إطار ترميز صوتي. وفي الحالات التي لا توجد فيها بيانات أولية (cold-start)، يحقق Qwen3-Omni تأخيراً نظرياً نهائياً (end-to-end) في أول حزمة يبلغ 234 مللي ثانية. ولتعزيز التفكير متعدد الوسائط بشكل أكبر، قمنا بتطوير نموذج تفكير (Thinking model) يُجري استنتاجاً صريحاً على المدخلات من أي وسائط. وبما أن المجتمع البحثي لا يمتلك حاليًا نموذجاً عاماً للوصف الصوتي (audio captioning)، فقد قمنا بتحسين Qwen3-Omni-30B-A3B لنتيجة نموذج Qwen3-Omni-30B-A3B-Captioner، الذي يُنتج وصفاً دقيقاً ودون تحيّز كبير (low-hallucination) لجميع المدخلات الصوتية. وتم إتاحة النماذج Qwen3-Omni-30B-A3B وQwen3-Omni-30B-A3B-Thinking وQwen3-Omni-30B-A3B-Captioner للجمهور العام تحت ترخيص Apache 2.0.