HyperAI

GPT-4 يهدف إلى تعدد الوسائط، مع وجود Google PaLM-E في الماضي، فهل سيتغير مشهد الذكاء الاصطناعي؟

منذ 2 أعوام
معلومة
Sparanoid
特色图像

المحتويات في لمحة:كان GPT-4 بمثابة قنبلة نووية فجرت دائرة التكنولوجيا بأكملها في 14 مارس. في وسط هذا الانفجار النووي، استعرض GPT-4 الذي طال انتظاره عضلاته، بينما على محيط الانفجار النووي، كانت جوجل وغيرها من الآلهة تراقب بحسد وتتحرك باستمرار.

14 مارس بالتوقيت الشرقيأطلقت شركة OpenAI نموذج GPT-4 متعدد الوسائط على نطاق واسع. GPT-4 هي التقنية التي تدعم ChatGPT وBing AI chatbots. وقالت شركة OpenAI إن GPT-4 يمكنه قبول إدخال الصور والنصوص وإخراج محتوى نصي، على الرغم من أن قدرته في العديد من السيناريوهات الواقعية ليست جيدة مثل قدرة البشر.ومع ذلك، فقد حققت أداءً على المستوى البشري في مجموعة متنوعة من المعايير المهنية والأكاديمية.

OpenAI تطلق GPT-4

هبطت طائرة GPT-4 فجأة: ثلاث ميزات جذبت الانتباه

يتضمن هذا التحديث لـ GPT-4 ثلاث ميزات جديدة رئيسية تم تحسينها بشكل كبير:تم تحسين حد إدخال النص، وأصبح لديه القدرة على التعرف على الصور وقدرات تفكير أقوى.

  محتوى أطول وأغنى 

وفقًا لـ OpenAI،يتمتع برنامج GPT-4 بالقدرة على معالجة النصوص التي يزيد عدد كلماتها عن 25000 كلمة. وقال الكاتب في Medium مايكل كينج إن هذه الميزة تسمح بإنشاء محتوى طويل، مثل المقالات والمدونات، مما يمكن أن يوفر الوقت والموارد للشركات والأفراد.

بالإضافة إلى ذلك، فإن معالجة GPT-4 لكميات كبيرة من النصوص تجعل إجراء محادثات مطولة أمرًا ممكنًا، مما يعني أنه في الصناعات مثل قطاع الخدمات، يمكن لروبوتات الدردشة بالذكاء الاصطناعي تقديم استجابات أكثر تفصيلاً وعمقًا لاستفسارات العملاء. وفي الوقت نفسه، تتيح هذه الميزة أيضًا البحث والتحليل الفعال للمستندات، مما يجعلها أداة مفيدة للصناعات مثل التمويل والقانون والرعاية الصحية.

GPT-4 أفضل في معالجة النصوص من ChatGPT

مزيد من القدرة على التفكير 

وقالت شركة OpenAI إن الإجابات التي تم إنشاؤها بواسطة GPT-4 تحتوي على أخطاء أقل وهي أكثر دقة من GPT-3.5. في الوقت نفسه، لا يوجد فرق كبير بين GPT-3.5 وGPT-4 عند الدردشة، ولكن إذا كانت المهمة معقدة بدرجة كافية، فإن GPT-4 أكثر موثوقية وأكثر إبداعًا ويمكنه التعامل مع تعليمات أكثر دقة من GPT-3.5. ويقال أن GPT-4 شارك في مجموعة متنوعة من اختبارات القياس.ومن بينهم المرشحون الذين حصلوا على درجات أعلى من 88% في امتحان نقابة المحامين الموحد واختبار LSAT وامتحانات أخرى.

جي بي تي-4

ميزة جديدة ومشرقة: تعدد الوسائط 

بالإضافة إلى مهارات الإجابة الأفضل،من الميزات المتميزة الأخرى لـ GPT-4 هي قدرته على قبول الإدخال في شكل نصوص وصور.يمكن أن تكون أنواع الصور عبارة عن صور فوتوغرافية، أو مخططات بيانية، أو لقطات شاشة، وما إلى ذلك. على سبيل المثال، المثال التالي:

السؤال: ما المضحك في هذه الصورة؟ وصفها نقطة بنقطة.

إجابة GPT-4: تُظهر الصورة محول "كابل Lightning" يحتوي على ثلاث صور.

الشكل 1: هاتف ذكي مزود بموصل VGA (موصل كبير أزرق اللون مكون من 15 سنًا يستخدم عادةً في شاشات الكمبيوتر) متصل بمنفذ الشحن الخاص به.

الشكل 2: عبوة محول "كابل Lightning"، مع صورة موصل VGA.

الشكل 3: صورة مقربة لموصل VGA، وفي النهاية موصل Lightning صغير (يستخدم لشحن أجهزة iPhone وأجهزة Apple الأخرى).

إن الفكاهة في هذه الصورة تأتي من عبثية توصيل موصل VGA كبير قديم الطراز بمنفذ شحن صغير وحديث للهاتف الذكي.

GPT-4 تحليل الميمات

يرجى ملاحظة أن هذه الميزة لا تزال في إصدار المعاينة للباحث.إنه ليس مفتوحا للجمهور.لم تكشف OpenAI بعد عن موعد افتتاحها.

 "إنه ليس مثاليًا" 

أثناء تقديم الميزات الجديدة لـ GPT-4، أقرت OpenAI أيضًا ببعض قيودها. كما هو الحال مع الإصدارات السابقة من GPT،لا يزال GPT-4 يعاني من مشاكل مثل التحيزات الاجتماعية والهلوسة والمطالبات المعادية.بعبارة أخرى، GPT-4 ليس مثاليًا في الوقت الحالي. لكن شركة OpenAI قالت أيضًا أن هذه هي المشاكل التي تعمل بجد لحلها.

نماذج متعددة الوسائط: جوجل تتولى زمام المبادرة في تقديم المقبلات

على الرغم من أن تعدد الوسائط هو أبرز ما يميز GPT-4، إلا أنه يجب القول أنGPT-4 ليس النموذج المتعدد الوسائط الوحيد.

قدم هولجر كين، الخبير التقني في مجال الذكاء الاصطناعي في شركة مايكروسوفت، ما يسمى بالنموذج المتعدد الوسائط، والذي لا يستطيع ترجمة النص إلى صور فحسب، بل إلى صوت وفيديو أيضًا. في وقت سابق من هذا الشهر،أطلقت شركة جوجل أكبر نموذج لغوي بصري في التاريخ - PaLM-E (نموذج لغة المسارات مع التجسيد)،نموذج لغوي متعدد الوسائط مضمن للروبوتات. يدمج PalM-E نموذج اللغة PaLM 540B والنموذج المرئي 22B ViT، وبالتالي يحتوي على معلمات 562B.

أجرى الباحثون تدريبًا شاملاً على مهام متعددة، بما في ذلك قواعد تشغيل الروبوت، والإجابة على الأسئلة البصرية، وترجمة الصور. وأظهرت نتائج التقييم أن النموذج قادر على حل مهام التفكير المختلفة بفعالية وإظهار "نقل إيجابي" على وسائل المراقبة المختلفة والكيانات المتعددة. بالإضافة إلى تدريبه على مهام الروبوت، فإن النموذج يعمل أيضًا بشكل جيد في مهام اللغة البصرية.

يجمع PaLM-E بين أجهزة الاستشعار وإدخال النص لبناء رابط بين اللغة والإدراك

في مثال العرض التوضيحي، عندما يصدر الإنسان الأمر "أعطني رقائق البطاطس الموجودة في الدرج"، يمكن لـ PaLM-E إنشاء أمر عمل لروبوت مزود بذراع آلية وتنفيذ العمل. ويتم ذلك عن طريق تحليل البيانات من كاميرا الروبوت دون معالجة المشهد مسبقًا.

أكمل الروبوت الأمر "أعطني الرقائق الموجودة في الدرج"

وبالإضافة إلى منح الروبوت القدرات المذكورة أعلاه، فإن PaLM-E نفسه هو أيضًا نموذج لغوي بصري يمكنه سرد القصص بناءً على الصور أو الإجابة على الأسئلة بناءً على محتوى الصور.

هل النموذج المتعدد الوسائط يعادل إصدار الآيفون؟

يبدو الآن أن مجال الذكاء الاصطناعي بأكمله منخرط في سباق تسلح على قدم وساق. في مواجهة الشعبية الهائلة التي حققها ChatGPT، أطلقت Google برنامج Bard بشكل عاجل لمواصلة العمل. ومؤخرًا، قامت بالرد مرة أخرى من خلال فتح واجهة برمجة التطبيقات الخاصة بها "PaLM API" وأصدرت أيضًا أداة MakerSuite لمساعدة المطورين في بناء برامج الذكاء الاصطناعي بسرعة.

على الرغم من أن الرئيس التنفيذي لشركة OpenAI سام ألتمان ظل غامضًا بشأن تاريخ إصدار GPT-4 في مقابلة أجريت معه منذ فترة ليست طويلة، مدعيًا "نريد التأكد من أنه آمن ومسؤول عند إصداره"، إلا أن الظهور المفاجئ لـ GPT-4لا مفر من أن يتساءل الناس عما إذا كان ذلك بسبب الهجمات المضادة المستمرة والمحاصرة من قبل عمالقة مثل جوجل والتي تضطر الشركة إلى تسريع خطواتها.

ومن الجدير بالذكر أن سام ذكر أيضًا نقطة في المقابلة.المرحلة التطورية التالية للذكاء الاصطناعي هي وصول النماذج الكبيرة متعددة الوسائط."أعتقد أن هذا سيكون اتجاهًا كبيرًا... وبشكل عام، ستكون هذه النماذج القوية واحدة من منصات التكنولوجيا الجديدة الحقيقية التي لم تكن لدينا منذ الهاتف المحمول."

يبقى أن نرى ما إذا كان الإصدار الضخم لـ GPT-4 يمثل الوصول الرسمي لعصر النماذج متعددة الوسائط، ولكن قدراته القوية بدأت تجعل العديد من المطورين وحتى الأشخاص العاديين يقلقون بشأن ما إذا كان سيتم استبدالهم به. ولعل التصريحات العلنية التي أدلت بها ماريان جانيك، الرئيسة التنفيذية لشركة مايكروسوفت في ألمانيا، قبل أيام قليلة، تشكل الإجابة على هذا السؤال. وتعتقد أن التطور الحالي للذكاء الاصطناعي يشبه ظهور الآيفون. وفي الوقت نفسه، أوضحت أيضًا أنلا يتعلق الأمر باستبدال الوظائف، بل يتعلق بإكمال المهام المتكررة بطريقة مختلفة عن ذي قبل.

"إن التغيير سوف يؤدي إلى تغيير نماذج العمل التقليدية، ولكن يجب علينا أيضًا أن نرى أن هذا التغيير قد أضاف العديد من الاحتمالات الجديدة، وبالتالي، سوف تظهر مهن جديدة ومثيرة."

روابط مرجعية:

[1]https://openai.com/research/gpt-4  

[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

[3] https://palm-e.github.io/

[4]https://medium.com/@neonforge