ترقية واجهة برمجة التطبيقات الصوتية المباشرة من OpenAI: وصول قدرات الاستدلال بمستوى GPT-5، والترجمة لأكثر من 70 لغة، والتحويل النصي المباشر في آن واحد
أعلنت OpenAI يوم الخميس عن إضافة مجموعة من القدرات الذكية للصوت إلى واجهة برمجة التطبيقات الخاصة بها، مما يساعد المطورين على بناء تطبيقات قادرة على الاستماع والكلام والترجمة والتحويل النصي. وتشمل المنتجات الأساسية ثلاثة نماذج جديدة: يعتمد نموذج GPT-Realtime-2 على قدرات استدلال بمستوى GPT-5 لمعالجة تعليمات المستخدمين الأكثر تعقيدًا وتحقيق محادثات صوتية أكثر طبيعية؛ بينما يدعم نموذج GPT-Realtime-Translation الترجمة الفورية لـ 70 لغة إدخال و13 لغة إخراج مع التبديل المباشر أثناء المحادثة؛ أما نموذج GPT-Realtime-Whisper فيوفر قدرة تحويل الصوت إلى نص فوري تتم بشكل متزامن مع حدوث المحادثة. وذكرت OpenAI أن هذه النماذج الجديدة تدفع تقنيات الصوت اللحظي من التفاعل البسيط "السؤال والجواب" نحو واجهات صوتية يمكنها حقًا "الاستماع والاستدلال والترجمة والتحويل وتنفيذ العمليات"، وتغطي مجالات التطبيق المستهدفة خدمة العملاء والتعليم والإعلام والأحداث ومنصات المبدعين. وفي ما يتعلق بمخاطر سوء الاستخدام المحتملة، ذكرت الشركة أنها دمجت آليات حماية مدمجة تتيح للنظام قطع المحادثة تلقائيًا عند اكتشاف انتهاك لدليل المحتوى الضار. وأخيرًا، فيما يخص التسعير، يُحسب سعر خدمات Translation وWhisper بالدقيقة، بينما يحسب سعر GPT-Realtime-2 استهلاك الرموز (Tokens)، وقد تم إدراج جميع الخدمات ضمن واجهة برمجة التطبيقات للوقت الحقيقي.
