اختبارات معيارية تحسم الجدل.. 3 مجالات يتفوق فيها Chat GPT على Gemini

اخبار مصر

موقع كل يوم -

صدى البلد

نشر بتاريخ: ٢٢ كانون الثاني ٢٠٢٦

مع التوسع المتسارع في استخدام أدوات الذكاء الاصطناعي، بات من الصعب على المستخدم غير المتخصص التمييز بين قدرات النماذج المختلفة، خاصة عند المقارنة بين اثنين من أكبر الأسماء في هذا المجال: ChatGPT من شركة OpenAI وGemini التابع لشركة Google.

وتزداد حدة هذه المقارنات في ظل التحديثات المتلاحقة التي قد تُغير موازين الأداء خلال فترات قصيرة، كما حدث مؤخرًا بعد إطلاق الإصدار ChatGPT-5.2.

وللخروج من دائرة الانطباعات الشخصية والتجارب الفردية، يعتمد الخبراء على الاختبارات المعيارية (Benchmarks)، وهي أدوات تقييم محايدة تقيس قدرات الذكاء الاصطناعي في مجالات مثل التفكير المنطقي، وحل المشكلات، والاستدلال المجرد.

يُعد ChatGPTنموذج ذكاء اصطناعي توليدي طورته شركة OpenAI، ويعتمد على نماذج لغوية متقدمة قادرة على فهم السياق وتحليل اللغة الطبيعية وتقديم إجابات تتطلب تفكيرًا منطقيًا واستدلالًا عميقًا. ويُستخدم على نطاق واسع في مجالات التعليم، والبرمجة، وصناعة المحتوى، والتحليل.

في المقابل، طورت شركة Google نظام Gemini ليكون منصة ذكاء اصطناعي متعددة الوسائط، تجمع بين معالجة النصوص وتحليل البيانات والتكامل مع خدمات البحث، مع تركيز خاص على الاندماج داخل منظومة Googleالرقمية، ويُستخدم في البحث الذكي وتوليد المحتوى وتحليل المعلومات.

يُعد اختبار GPQA Diamond من أبرز المعايير التي تقيس قدرات التفكير العلمي المتقدم، حيث يضم أسئلة على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء، وتتميز بكونها غير قابلة للبحث المباشر عبر الإنترنت، بل تتطلب ربطًا عميقًا بين مفاهيم علمية متعددة.

ووفقًا لنتائج الاختبار، حقق ChatGPT-5.2 نسبة 92.4%، متفوقًا بفارق محدود على Gemini 3 Proالذي سجل 91.9%.

وللمقارنة، يبلغ متوسط أداء خريجي الدكتوراه نحو 65%، بينما لا يتجاوز أداء غير المتخصصين 34%.

في مجال البرمجة، يُعد اختبار SWE-Bench Pro من أكثر الاختبارات تعقيدًا، لاعتماده على مشكلات حقيقية مأخوذة من منصة GitHub، وتشمل شيفرات معقدة وتقارير أعطال واقعية تتطلب فهمًا دقيقًا للبنية البرمجية.

وأظهرت النتائج أن ChatGPT-5.2 تمكن من حل نحو 24% من هذه المشكلات، مقابل 18% فقط لصالح Gemini.

ورغم أن هذه النسب قد تبدو محدودة، فإن طبيعة الاختبار الصعبة تفسر ذلك، إذ لا تزال هذه المهام تتطلب خبرة بشرية عالية.

في اختبار ARC-AGI-2، المصمم لقياس القدرة على استنتاج الأنماط المجردة من عدد محدود من الأمثلة، سجل ChatGPT-5.2 Pro نتيجة 54.2%.

في المقابل، لم يتجاوز أداء Gemini 3 Pro نسبة 31.1%، بينما اقتربت بعض الإصدارات الأعلى تكلفة من Geminiمن هذه النتائج دون أن تتفوق عليها.

ويُعد هذا النوع من الاختبارات من أصعب التحديات أمام نماذج الذكاء الاصطناعي، ما يجعل هذا الفارق مؤشرًا لافتًا على تطور قدرات ChatGPT في مجالات التفكير غير التقليدي.

اعتمد التحليل على أحدث الإصدارات المدفوعة من كلا النظامين، مع التركيز على الاختبارات المعيارية المعتمدة بدلًا من الاستخدامات اليومية أو التفضيلات الشخصية.

ورغم وجود مجالات أخرى يظهر فيها تفوق Gemini، فإن هذه الاختبارات الثلاثة تمثل مزيجًا مهمًا من التفكير العلمي العميق، وحل المشكلات الواقعية، والاستدلال المجرد.

عرض المزيد من اخبار مصر اخبار مصر صدى البلد سياسة الذكاء الاصطناعي أدوات الذكاء الاصطناعي قدرات الذكاء الاصطناعي

اخبار مصر على مدار الساعة
Permalink: https://www.klyoum.com/egypt-news/ar/11-اختبارات-معيارية-تحسم-الجدل-3-مجالات-يتفوق-فيها-Chat-GPT-على-Gemini
صدى البلد \| elbalad.news

اخبار مصر