شوف الجديد! نماذج OpenAI الجديدة أذكى بكتير لكنها بتتخيل زيادة

شهدت نماذج الذكاء الاصطناعي المتقدمة مثل o3 وo4-mini من شركة OpenAI تطورًا ملحوظًا في مهاراتها التحليلية والمنطقية، إلا أنها واجهت تحديًا كبيرًا يتمثل في “الهلاوس”، وهي ظاهرة تقديم معلومات خاطئة أو غير دقيقة بثقة مبالغ فيها. مع أن التوقعات كانت تأمل تحسنًا ملحوظًا في هذه المشكلة مع كل إصدار جديد، إلا أن هذه النماذج فاجأت الخبراء بزيادة معدل الهلاوس بشكل لافت مقارنة بالإصدارات السابقة.

أداء نماذج OpenAI في التعامل مع الهلاوس

رغم التقدم الكبير الذي حققته النماذج الجديدة؛ أظهرت بيانات OpenAI أن هذه النماذج تعاني من معدلات هلاوس مرتفعة. على سبيل المثال، وصل معدل هلاوس نموذج o3 إلى 33% عند اختباره بمعيار PersonQA، الذي يقيس دقة المعرفة عن الأشخاص، وهو ضعف المعدل الذي سجلته النماذج السابقة مثل o1. أما نموذج o4-mini فقد كان الأضعف بمعدل هلاوس بلغ 48%، مما يعكس تحديات جديدة تواجه الابتكار في هذا المجال، حيث أن هذه النماذج تقدم في بعض الأحيان معلومات مختلقة بثقة، مما يهدد مصداقيتها.

أسباب ودلالات الهلاوس في النماذج الجديدة

تكمن أسباب مشكلات الهلاوس في التصميم المنطقي العالي لهذه النماذج، والذي كان من المفترض أن يحسن الأداء ويقلل الأخطاء. لكن زيادة تعقيد هذه النماذج ساهم في ارتفاع احتمالية تقديمها ادعاءات خاطئة دون تدقيق كافٍ، خاصة في المهام الدقيقة مثل البرمجة أو تقديم المعلومات القانونية والطبية. الدراسات أشارت إلى أن النماذج تقوم أحيانًا باختراع خطوات أو روابط مواقع إلكترونية تبدو مقنعة لكنها غير حقيقية، مما يخلق انطباعًا مضللًا لدى المستخدم.

كيفية تقليل معدلات الهلاوس مستقبلاً

لمعالجة هذه المشكلة، تقترح بعض الدراسات حلولاً مبتكرة مثل تمكين النماذج من الاتصال بالإنترنت للتحقق من المعلومات؛ حيث أظهرت نماذج مثل GPT-4o تحسينًا كبيرًا بنسبة دقة تصل إلى 90% عند استخدامها للبحث الفوري للتأكد من صحة ادعاءاتها. إلا أن هذا قد يزيد من تعقيد النماذج، مما يجعل التحدي أكبر في الحفاظ على التوازن بين تقديم أداء متميز وتجنب الأخطاء.

النموذج معدل الهلاوس
o3 33%
o4-mini 48%

بالرغم من هذه التحديات، أكد المتحدث باسم OpenAI أن الشركة تضع مشكلة الهلاوس في مقدمة أولوياتها باعتبارها واحدة من أهم العقبات التي يجب معالجتها لتحسين الكفاءة وضمان موثوقية النماذج في المستقبل.