اخبار السعودية
موقع كل يوم -جريدة الرياض
نشر بتاريخ: ٥ تشرين الأول ٢٠٢٥
د. زياد بن عبدالعزيز آل الشيخ
أبهرنا الذكاء الاصطناعي في السنوات الأخيرة بقدراته الفائقة حتى بدأنا نرى أثرها على سوق العمل، كل ذلك نتيجة العناوين الكبيرة: نموذج يتفوق في اختبار المحاماة المعياري، وآخر يهزم بطل العالم في الشطرنج. كل ما سبق رائع، لكن هل تكفي هذه القدرات لاستبدال الموظفين، وهل يستطيع النموذج صياغة عقد، أو تقييم صفقة استحواذ، أو تشخيص حالة مرضية؟
استجابة للفجوات التي شعر بها عدد من الاقتصاديين والمختصين لوضع النماذج على المحك، صدر هذا العام مؤشر إنتاجية الذكاء الاصطناعي (APEX). يحاول هذا المؤشر أن ينتقل من اختبارات التجريد والقدرات النظرية إلى واقع العمل المهني، ليجيب عن أسئلة أعمق من قدرة النموذج على استرجاع المعلومات ووضعها في سياق جديد، إنما عن قدرته ليؤدي مهاما دقيقة في القانون والتمويل والاستشارات والطب. ونتيجة لذلك يحاول المؤشر أن يجيب عن تحدي حساب قيمة ساعات عمل الذكاء الاصطناعي مقارنة بساعات عمل المختصين في مختلف المهن.
يجمع المؤشر بين البساطة والصرامة. فقد صمم المؤشر خبراء في أربعة مجالات: المصرفية الاستثمارية، الاستشارات الإدارية، المحاماة، والرعاية الطبية الأولية. تضم هذه المجالات مئتي مهمة واقعية تحاكي ما يقوم به المحترفون يوميا. كل مهمة مدعومة بوثائق أساسية: جداول بيانات، مذكرات، ملفات مساندة، إضافة إلى معايير تقييم تفصيلية. لا يحكم على النماذج بذكائها الظاهري، بل وفق استيفائها لعشرات المعايير الدقيقة: تماسك نموذج التقييم المالي، عمق المذكرة القانونية في استيعابها للقضايا السابقة، أخذ التاريخ المرضي بكل تشعباته عند تقديم النصيحة الطبية.
عندما طبق المؤشر جاءت نتائج لافتة. فقد حقق تشات (جي بي تي) أفضل نتيجة بنحو 64 في المئة. قد تبدو النتيجة إيجابية، إنما تعني أن النموذج أخفق في ثلث المعايير. المنافسون الآخرون مثل نموذج جيميني تأخر قليلا، بينما حلت النماذج مفتوحة المصدر في ذيل القائمة. كما تفاوت الأداء حسب المجال: القانون أسهل، بينما الطب ظل هو الأصعب بلا منازع. بناء على ذلك، لك الحق في الحذر من نصائح الذكاء الاصطناعي ولو في أمر بسيط كرشحة برد.
تدل نتائج المؤشر أن استبدال العمالة عالية المهارة ليس بالأمر الهين. تستطيع النماذج التعرف على الأنماط، لكنها تعجز عن تحليل السياق أو التعميم فتؤدي إلى أخطاء باهظة الثمن بل كارثية. الأمر الآخر، ليست الإنتاجية مسألة ذكاء فقط، بل مسألة موثوقية واندماج بيئي. المحامي الذي ينجح في 64 في المئة من القضايا فقط هو عبء على المهنة وليس نجما صاعدا.
لا ندري إن كان المؤشر سيصبح معيارا ذهبيا لقياس كفاءة النماذج، فمجالاته محدودة، ومعاييره ليست مثالية، ونظام تقييمه لا يزال في طور التطوير. يكفي أنه هز الثقة بقدرة النماذج على استبدال العاملين قبل أن ندرك ذلك تحت واقع كارثة أو اثنتين.