شركة OpenAI تكشف عن نموذج GPT-5.4 مع قائمة ضخمة من الميزات والتحسينات

أعلنت شركة OpenAI اليوم رسمياً عن إطلاق نموذج جي بي تي 5.4 GPT-5.4، النموذج الأكثر تطوراً وكفاءةً في تاريخ الشركة، والمصمّم خصيصاً للعمل المهني الاحترافي. يجمع هذا النموذج بين أحدث إنجازات الشركة في مجالات الاستدلال والبرمجة وسير العمل الآلي في نموذج موحّد وفعّال. يتميز GPT-5.4 بأنه النموذج الأول الذي يدمج قدرات استخدام الحاسوب بشكل أصيل ومدمج في النموذج ذاته، مما يتيح للوكلاء الآليين تشغيل الحواسيب وتنفيذ مهام معقدة عبر التطبيقات المختلفة بكفاءة غير مسبوقة.
أهم مميزات نموذج GPT-5.4
أولاً : الأداء في العمل المهني
- يحقق GPT-5.4 نسبة 83.0% في معيار GDPval الذي يقيس جودة العمل المهني عبر 44 مهنة في 9 قطاعات اقتصادية رئيسية
- يتفوق على متوسط أداء المختصين البشريين في تنفيذ مهام واقعية كإعداد العروض التقديمية وجداول البيانات المحاسبية وجداول مراكز الرعاية الطبية.
- يحقق درجة 87.3% في مهام نمذجة الجداول المالية على مستوى محللي البنوك الاستثمارية (مقابل 68.4% لـ GPT-5.2).
- المقيّمون البشريون يفضّلون العروض التقديمية الناتجة عن GPT-5.4 بنسبة 68% مقارنةً بـ GPT-5.2 نظراً لجماليتها البصرية وتنوعها.
- يُعدّ النموذج الأكثر دقةً وتحقيقاً للحقائق: نسبة الادعاءات الخاطئة أقل بنسبة 33%، والردود التي تحتوي على أخطاء أقل بنسبة 18% مقارنةً بـ GPT-5.2.
ثانيًا: استخدام الحاسوب والإدراك البصري
- النموذج العام الأول من OpenAI الذي يمتلك قدرات استخدام الحاسوب بشكل أصيل، مما يجعله الأمثل لبناء وكلاء آليين قادرين على إتمام مهام حقيقية عبر المواقع والأنظمة البرمجية.
- يحقق 75.0% في معيار OSWorld-Verified الذي يقيس القدرة على التنقل في بيئة سطح المكتب، متجاوزاً أداء الإنسان البالغ 72.4%.
- يحقق 67.3% في معيار WebArena-Verified لاستخدام المتصفح، و92.8% في Online-Mind2Web.
- يدعم دقة الصور الأصلية حتى 10.24 ميغابكسل أو أبعاد 6000 بكسل (أيهما أصغر)، مما يحسّن الاستدلال البصري الدقيق.
- يحقق 81.2% في معيار MMMU-Pro لقياس الفهم البصري والاستدلال دون أدوات مساعدة.
ثالثًا: قدرات البرمجة
- يدمج قدرات البرمجة المتطورة من GPT-5.3-Codex مع الأداء المهني وقدرات استخدام الحاسوب في نموذج واحد.
- يحقق 57.7% في معيار SWE-Bench Pro العام، متفوقاً على GPT-5.3-Codex (56.8%) وGPT-5.2 (55.6%).
- يتميز بأداء ملحوظ في مهام الواجهة الأمامية المعقدة مع نتائج أكثر جمالاً ووظيفية.
- يتوفر وضع /fast في Codex يوفر سرعة توليد رموز أعلى بـ 1.5 مرة مع الحفاظ على نفس مستوى الذكاء.
- إطلاق مهارة Playwright (Interactive) التجريبية التي تتيح لـ Codex تصحيح تطبيقات الويب وإلكترون بصرياً.
ثالثًا: استخدام الأدوات والتكاملات
- يدعم البحث في الأدوات (Tool Search) مما يتيح للنموذج العمل بكفاءة عند توفير عدد كبير من الأدوات.
- يقلّل البحث في الأدوات من استخدام الرموز بنسبة 47% مع الحفاظ على نفس مستوى الدقة في معيار Scale’s MCP Atlas.
- يحقق 54.6% في معيار Toolathlon لقياس استخدام الأدوات والتكاملات الواقعية.
- يدعم نوافذ سياق تصل إلى 1 مليون رمز مما يتيح التخطيط والتنفيذ عبر مهام طويلة الأمد.
- تحسين كبير في دقة استدعاء الأدوات والكفاءة عند اتخاذ قرارات استخدامها أثناء عملية الاستدلال.
رابعًا: البحث على الويب
- يتفوق بـ 17% (مطلق) على GPT-5.2 في معيار BrowseComp الذي يقيس قدرة الوكلاء على التصفح المثابر للويب.
- يحقق GPT-5.4 Pro نتيجة 89.3% في BrowseComp وهو مستوى قياسي جديد في الصناعة.
- يتميز بالمثابرة في البحث عبر جولات متعددة خاصةً لأسئلة إيجاد المعلومات النادرة.
خامسًا: قابلية التوجيه والتحكم
- في ChatGPT، يقدم GPT-5.4 Thinking خطة عمل مسبقة لمهام الاستفسار الطويلة والمعقدة.
- يتيح تعديل التوجيهات أو إضافة تعليمات في منتصف الرد دون الحاجة لإعادة البدء من الصفر.
- يحافظ على وعي أقوى بالخطوات السابقة عند التفكير في المهام الطويلة والمعقدة.
- قابل للتشكيل عبر رسائل المطوّرين، بما في ذلك سياسات التأكيد المخصصة لمستويات المخاطر المختلفة.
سادسًا: الكفاءة وتحسين التكلفة
- النموذج الأكثر كفاءةً في استخدام الرموز حتى الآن، يستخدم عدداً أقل بشكل ملحوظ من الرموز لحل المشكلات مقارنةً بـ GPT-5.2.
- كفاءة أعلى في الرموز تعني تقليلاً في التكاليف الإجمالية على الرغم من ارتفاع سعر الرمز الواحد.
- التسعير بالدُفعات والمرونة متاح بنصف معدل API القياسي.
سابعًا: السلامة والأمان
- يُصنَّف على أنه نموذج ذو قدرة سيبرانية عالية وفق إطار Preparedness الخاص بـ OpenAI.
- يشتمل على حزمة أمان سيبراني موسّعة تضم أنظمة مراقبة وضوابط وصول موثوقة.
- إطلاق تقييم مفتوح المصدر: CoT controllability لقياس قدرة النماذج على التحكم في استدلالها.
- تشير النتائج إلى أن GPT-5.4 Thinking غير قادر على إخفاء استدلاله، وهو مؤشر إيجابي للسلامة.
- تحسينات مستمرة لتقليل الرفض غير الضروري والردود المبالغ في تحفظها.

مقارنة الأداء الشاملة
يوضح الجدول التالي مقارنة تفصيلية لأداء GPT-5.4 مقابل النماذج السابقة عبر مختلف معايير الاختبار:
| المعيار | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
| GDPval (العمل المهني) | 83.0% ✓ | 70.9% | 70.9% |
| SWE-Bench Pro (البرمجة) | 57.7% ✓ | 56.8% | 55.6% |
| OSWorld-Verified (استخدام الحاسوب) | 75.0% ✓ | 74.0% | 47.3% |
| Toolathlon (استخدام الأدوات) | 54.6% ✓ | 51.9% | 46.3% |
| BrowseComp (البحث على الويب) | 82.7% ✓ | 77.3% | 65.8% |
| GPQA Diamond (المعرفة الأكاديمية) | 92.8% ✓ | 92.6% | 92.4% |
| ARC-AGI-2 (التفكير المجرد) | 73.3% ✓ | — | 52.9% |
| MMMU-Pro (الإدراك البصري) | 81.2% ✓ | — | 79.5% |
| Frontier Science Research | 33.0% ✓ | — | 25.2% |
مقارنة الأسعار والإتاحة
يتوفر GPT-5.4 اعتباراً من 5 مارس 2026 عبر ChatGPT وCodex وAPI. يتيح نموذج GPT-5.4 Thinking في ChatGPT للمشتركين في خطط Plus وTeam وPro. يُحدث هذا النموذج GPT-5.2 Thinking، الذي سيستمر متاحاً لمدة ثلاثة أشهر ثم يُوقف في 5 يونيو 2026.
| النموذج | سعر الإدخال | سعر الإدخال المخزّن | سعر الإخراج |
| gpt-5.2 | $1.75/M | $0.175/M | $14/M |
| gpt-5.4 | $2.50/M | $0.25/M | $15/M |
| gpt-5.2-pro | $21/M | — | $168/M |
| gpt-5.4-pro | $30/M | — | $180/M |
الخلاصة التحليلية
يمثل GPT-5.4 قفزة نوعية شاملة في الذكاء الاصطناعي العملي للبيئات المهنية. فهو لا يُحسّن مجرد أرقام المعايير، بل يُحوّل طبيعة ما يمكن للنماذج إنجازه: من التعامل مع الحاسوب بشكل مستقل، إلى تنفيذ مهام العمل المعقدة بكفاءة تضاهي المحترفين البشريين، إلى تقليص الأخطاء الجوهرية بشكل ملموس. الزيادة في السعر مبرّرة بالقيمة التقنية المضافة، خاصةً لأن كفاءة استخدام الرموز المحسّنة تعوّض جزءاً كبيراً من الفارق في التكاليف الإجمالية. لمن يبني وكلاء آليين أو تطبيقات مهنية متطورة، يُعدّ GPT-5.4 الخيار الأمثل في السوق اليوم.
اقرأ أيضًا: الإعلان عن هاتف Magic V6 والهاتف الروبوت Robot Phone وأنحف لوحي ولابتوب جديد



إرسال التعليق