مشروع جديد يجعل بيانات "ويكيبيديا" أكثر وصولا لأنظمة الذكاء الاصطناعي
klyoum.com
أعلنت ويكيميديا، عن إطلاق قاعدة بيانات جديدة تهدف إلى جعل معارف ويكيبيديا أكثر سهولة للوصول من قبل نماذج الذكاء الاصطناعي.
المشروع الذي يحمل اسم “مشروع تضمين ويكيدا” يعتمد على تقنية البحث الدلالي القائم على المتجهات، وهي تقنية تساعد الأجهزة على فهم معاني الكلمات والعلاقات بينها، يتم تطبيق هذه التقنية على البيانات الموجودة في ويكيبيديا ومنصاتها الشقيقة، والتي تتضمن ما يقرب من 120 مليون مدخل.
وبالتزامن مع تقديم دعم جديد لبروتوكول “نموذج السياق” MCP، وهو معيار يساعد أنظمة الذكاء الاصطناعي في التواصل مع مصادر البيانات، أصبح المشروع يسهل الوصول إلى البيانات من خلال استفسارات اللغة الطبيعية من نماذج اللغة الكبيرة LLMs.
تم تنفيذ المشروع من قبل فرع ويكيميديا في ألمانيا بالتعاون مع شركة Jina.AI المتخصصة في البحث العصبي، وشركة DataStax، وهي شركة تدريب بيانات في الوقت الفعلي مملوكة لشركة آي بي إم.
لطالما قدم ويكيدا بيانات قابلة للقراءة الآلية من ملكيات ويكيميديا، ولكن الأدوات السابقة كانت تقتصر على البحث بالكلمات الرئيسية واستعلامات SPARQL، وهي لغة استعلام متخصصة.
أما النظام الجديد فيعمل بشكل أفضل مع أنظمة التوليد المعزز بالاسترجاع RAG، التي تسمح لنماذج الذكاء الاصطناعي بسحب معلومات خارجية، مما يوفر للمطورين الفرصة لتأسيس نماذجهم على المعرفة التي تم التحقق منها من قبل محرري ويكيبيديا.
تم تنظيم البيانات أيضا لتوفير السياق الدلالي، على سبيل المثال، عند استعلام قاعدة البيانات عن كلمة “عالم”، ستظهر قوائم لعلماء نوويين بارزين وعلماء عملوا في مختبرات بيل.
كما تتضمن القاعدة ترجمات للكلمة “عالم” إلى لغات مختلفة، وصورة معتمدة من ويكيميديا لعلماء وهم يعملون، واستخراج مفاهيم مرتبطة مثل “باحث” و"عالم متفوق".
القاعدة متاحة للجمهور على منصة Toolforge.،كما ستستضيف ويكيدا ندوة عبر الإنترنت للمطورين المهتمين في 9 أكتوبر.
يأتي هذا المشروع في وقت يتسابق فيه مطورو الذكاء الاصطناعي للحصول على مصادر بيانات عالية الجودة يمكن استخدامها لتحسين نماذج الذكاء الاصطناعي.
وفي الوقت الحالي، أصبحت أنظمة التدريب أكثر تطورا، وغاليا ما تجمع كبيئات تدريب معقدة بدلا من مجرد مجموعات بيانات بسيطة، لكنها لا تزال بحاجة إلى بيانات منظمة بعناية لتعمل بشكل جيد.
وبالنسبة للتطبيقات التي تتطلب دقة عالية، أصبح من الضروري الحصول على بيانات موثوقة، وفي الوقت الذي قد يستخف فيه ببعض المصادر مثل ويكيبيديا، إلا أن بياناتها تميل لأن تكون أكثر دقة وواقعية مقارنة بمجموعات بيانات شاملة مثل Common Crawl، وهي مجموعة ضخمة من صفحات الويب المستخلصة من الإنترنت.
في بعض الحالات، يمكن أن يؤدي السعي وراء البيانات عالية الجودة إلى تكاليف باهظة لمختبرات الذكاء الاصطناعي، في أغسطس، قدمت شركة “أنثروبك” عرضا لتسوية دعوى قضائية مع مجموعة من المؤلفين الذين تم استخدام أعمالهم كمادة تدريب، من خلال الاتفاق على دفع 1.5 مليار دولار لإنهاء أي دعاوى بشأن سوء الاستخدام.
وفي تصريح صحفي، أكد مدير مشروع ويكيدا للذكاء الاصطناعي، فيليب سعدي، استقلالية المشروع عن مختبرات الذكاء الاصطناعي الكبرى أو شركات التكنولوجيا العملاقة.
وقال سعدي: “إطلاق هذا المشروع يثبت أن الذكاء الاصطناعي القوي لا يجب أن يكون تحت سيطرة عدد قليل من الشركات”، وأضاف: “يمكن أن يكون مفتوحا، تعاونيا، ومبنيا لخدمة الجميع”.