اخبار السعودية
موقع كل يوم -صحيفة الوئام الالكترونية
نشر بتاريخ: ١١ أيار ٢٠٢٦
تواصل شركات الذكاء الاصطناعي العالمية تسريع وتيرة تطوير تقنيات التفاعل الصوتي، في سباق يهدف إلى جعل المحادثة بين الإنسان والآلة أكثر طبيعية وسلاسة. وفي هذا الإطار، كشفت شركة «أوبن إيه آي»، عن حزمة جديدة من الأدوات الصوتية المتقدمة التي تتيح للمطورين إنشاء تطبيقات قادرة على التحدث مع المستخدمين، وفهم المحادثات، وترجمتها ونسخها لحظياً، في خطوة تعكس التوسع المتزايد لاستخدامات الذكاء الاصطناعي في مجالات خدمة العملاء والتعليم والإعلام وصناعة المحتوى.
التحدث مع المستخدمين
وأعلنت شركة تطبيقات الذكاء الاصطناعي الأميركية «أوبن إيه آي»، أن واجهة برمجة التطبيقات «API» الخاصة بها ستتضمن مجموعة من خصائص الذكاء الصوتي الجديدة، المصممة لمساعدة المطورين على إنشاء تطبيقات قادرة على التحدث مع المستخدمين، ونسخ المحادثات، وترجمتها.
التفاعل مع المستخدمين
ووفقاً لتقرير نشره موقع تك كرانش للتكنولوجيا، تشير الشركة إلى نموذجها الجديد «جي بي تي-ريال تايم-2» باعتباره نموذجاً صوتياً متقدماً يهدف لإنشاء محاكاة صوتية واقعية قادرة على التفاعل مع المستخدمين، وعلى عكس إصدار «جي بي تي-ريال تايم-1.5»، يعتمد هذا النموذج على قدرات استدلال من فئة «GPT-5»، ما يتيح له التعامل مع طلبات أكثر تعقيداً.
ترجمة فورية للمحادثات
وأطلقت الشركة خاصية «جي بي تي -ريال تايم- ترانسليت»، التي توفر ترجمة فورية للمحادثات بشكل متزامن، إذ تدعم أكثر من 70 لغة إدخال «أي اللغات التي يفهمها النموذج» و13 لغة إخراج «اللغات التي ينقلها إلى المتحدث»، كذلك كشفت «أوبن إيه آي» عن ميزة جديدة لتحويل الصوت لنص باسم «جي بي تي-ريال تايم-ويسبر»، تتيح للمستخدمين تحويل الكلام إلى نص مباشرةً أثناء التفاعل.
تفاعل صوتي مباشر
وتصدر تكنولوجيا «أوبن إيه آي» تعليمات لـ«تشات جي بي تي»: لا تتحدث عن العفاريت وأفادت الشركة في بيان بأن هذه النماذج تنقل التفاعل الصوتي المباشر من مجرد استجابة بسيطة إلى واجهات صوتية قادرة فعلياً على الاستماع، والتفكير، والترجمة، ونسخ الكلام، واتخاذ إجراءات أثناء سير المحادثة'.
تطوير خدمات دعم العملاء
وأضافت أن هذه التحديثات ستفيد بشكل خاص الشركات التي تسعى إلى تطوير خدمات دعم العملاء، إلى جانب مجالات أخرى مثل التعليم، والإعلام، والفعاليات، ومنصات صُنّاع المحتوى. وفي المقابل، أقرت «أوبن إيه آي» بإمكانية إساءة استخدام هذه الأدوات، مشيرةً إلى أنها أدرجت ضوابط حماية للحد من استغلالها في الرسائل المزعجة أو الاحتيال أو أشكال أخرى من الانتهاكات، بما في ذلك آليات توقف المحادثات في حال رصد محتوى مخالف.
تحويل الكلام إلى نص
وبيّنت الشركة أن جميع هذه النماذج الصوتية أصبحت متاحة عبر واجهة «ريال تايم» الخاصة بها، ما يمنح المطورين إمكانية دمج تقنيات التفاعل الصوتي والترجمة الفورية وتحويل الكلام إلى نص داخل تطبيقاتهم وخدماتهم المختلفة بسهولة أكبر. وأوضحت أن آلية التسعير تختلف بحسب نوع الخدمة المستخدمة، إذ تُحتسب تكلفة خدمتي الترجمة الفورية وميزة «ويسبر» لتحويل الصوت إلى نص وفق عدد الدقائق المستخدمة، بينما تعتمد تكلفة استخدام نموذج «جي بي تي-ريال تايم-2» على عدد الرموز «Tokens» التي تتم معالجتها أثناء التفاعل، وهو النظام المعتمد عادةً في نماذج الذكاء الاصطناعي التوليدي.










































