
اگر از پنج سیستم پیشرفته هوش مصنوعی جهان بپرسید که آیا یک گزاره صحیح است، دو سوم مواقع حداقل یکی از آنها پاسخ متفاوتی به شما خواهد داد. این یافته یک مطالعه جدید است که این ماه توسط محقق کوستا یوردانوف در Lenz Research منتشر شده است.
این مطالعه به مدلهای GPT-5.4، Claude Opus 4.7، Gemini 3 Pro، Gemini 3 Pro با قابلیت جستجو، و Sonar Pro، همان 1000 ادعای واقعی که توسط کاربران حقیقی برای بررسی صحت ارائه شده بود، را داد. مدلها باید یکی از چهار برچسب "صحیح"، "عمدتاً صحیح"، "گمراهکننده" یا "غلط" را انتخاب میکردند.
در 672 مورد از 1000 ادعا، حداقل یکی از مدلها با اکثریت مخالف بود. در 34 درصد موارد، این اختلاف نظر شدید بود: یک مدل ادعایی را صحیح میدانست در حالی که دیگری آن را غلط میخواند.
این مطالعه میخواند: "اینها موارد بنچمارک با کلیدهای پاسخ عمومی نیستند—اینها ادعاهایی هستند که کاربران واقعی برای بررسی به یک پلتفرم راستیآزمایی ارائه کردهاند." "تنها یک سطل قضاوت میتواند برای هر ادعا صحیح باشد، بنابراین هرگونه اختلاف نظر در بین هیئت به این معنی است که حداقل قضاوت یکی از مدلها تحت این چهار دسته ناسازگار است."
مطالعات قبلی در مورد توهمات هوش مصنوعی نشان دادهاند که چتباتها حقایق را اختراع میکنند. این یک مشکل است. اما این یک مشکل متفاوت است. مدلها لزوماً چیزی را از خودشان نمیسازند، بلکه فقط نمیتوانند بر روی قضاوتهای واقعی اولیه در مورد یک محتوای یکسان به توافق برسند.
این تحقیق از یک چارچوب استفاده کرده است که توجیه کردن نتایج را برای شرکتهای هوش مصنوعی دشوارتر میکند. به جای استفاده از ادعاهای مجموعههای آزمایشی استاندارد – که اغلب به دادههای آموزشی نشت میکنند – محققان از ادعاهایی استفاده کردند که توسط افراد واقعی به پلتفرم راستیآزمایی Lenz ارسال شده بود. این مقاله خاطرنشان میکند: "اکثر این ادعاها بعید است که در هیچ مجموعه داده آموزشی با برچسب صحیح مشخص شده باشند – هیچ کلید پاسخ قطعی برای تطبیق الگو وجود ندارد و هیچ جدول رتبهبندی بنچمارک برای اتکا به آن وجود ندارد."
معیار آماری توافق، که آلفای کریپندورف نامیده میشود، 0.639 بود؛ در مقیاسی که 1.0 به معنای توافق کامل و 0 به معنای شانس تصادفی است. این مطالعه میگوید که این مقدار نشاندهنده "توافق غیربدیهی اما محدود" است. محققان خاطرنشان میکنند: "قضاوتهای مدلها ساختاریافته هستند و نه تصادفی، اما به اندازهای ثابت نیستند که بتوان هیئت را به عنوان یک قاضی واحد و قابل تعویض در نظر گرفت." محققان به طور کلی هر چیزی زیر 0.8 را ضعیف میدانند.
هنگامی که هر پنج مدل به توافق رسیدند – که این اتفاق تنها در 328 مورد از 1000 ادعا رخ داد – تقریباً هیچگاه توافق نکردند که چیزی گمراهکننده یا عمدتاً صحیح است. تنها چهار ادعا حکم "گمراهکننده" اجماعی دریافت کردند. هیچ ادعایی حکم "عمدتاً صحیح" اجماعی دریافت نکرد.
محققان نمونههایی از ادعاها را ارائه کردند که در آنها مدلهای هوش مصنوعی بیشترین واگرایی را نشان دادند، از جمله "پورتفولیوی فعال بانک جهانی در نیجریه تا سال 2025 بیش از 16.4 میلیارد دلار است." ChatGPT 5.4 آن را "عمدتاً صحیح" دانست در حالی که Gemini 3 Pro آن را "غلط" و مدل خواهر آن، Gemini 3 Pro + Search، آن را "گمراهکننده" ارزیابی کرد.
در مثالی دیگر، ادعای زیر به مدلها داده شد: "دونالد ترامپ گفت که حمله به ایران به درخواست متحدان خلیج فارس به تعویق افتاد." GPT-5.4 آن را غلط دانست، Claude Opus 4.7 آن را عمدتاً صحیح نامید، Gemini 3 Pro آن را غلط گفت، و Gemini 3 Pro + Search آن را صحیح ارزیابی کرد.
محققان دریافتند: "هیئت بر روی احکام قطعی به همگرایی میرسد؛ اما در میانه دستهبندی است که دچار گسست میشود." اتفاق نظر تنها در موارد شدید رخ میداد: یا ادعا قطعاً صحیح بود یا قطعاً غلط.
این موضوع اهمیت دارد زیرا مردم به طور فزایندهای برای راستیآزمایی به سیستمهای هوش مصنوعی روی میآورند. اگر یک ادعا از یک مقاله خبری را در ChatGPT، Claude یا Gemini وارد کنید، ممکن است سه پاسخ متفاوت دریافت کنید. به کدام یک اعتماد میکنید؟
شرکتهای هوش مصنوعی دوست دارند به شما بگویند که مدلهایشان در حال دقیقتر شدن هستند. آنها نمرات بنچمارک را منتشر میکنند که بهبود مستمر را نشان میدهد. اما مطالعه Lenz این مدلها را بر روی همان ادعاهای ناهموار و مبهمی آزمایش کرد که انسانهای واقعی درباره آنها بحث میکنند – و دریافت که مدلها نیز با هم بحث میکنند.
این مقاله با دقت این نکته را بیان میکند. "اکثریت مدلهای پیشرفته حقیقت مطلق نیستند. حکم اکثریت گاهی اوقات اشتباه است؛ یک مدل مخالف فردی گاهی اوقات درست میگوید. ما از اکثریت به عنوان یک نقطه مرجع ساختاری برای اندازهگیری اختلاف نظر استفاده میکنیم، نه به عنوان جایگزینی برای صحت."
یک مشکل عمیقتر در این اعداد پنهان است. وقتی مدلها با هم اختلاف نظر دارند، حداقل یکی از آنها باید اشتباه کند – این مطالعه حکم یک مدل را "ناسازگار با برچسبگذاری تحت این چهار دسته" مینامد. هیچ مکانیسم حل اختلاف، هیچ دادگاه تجدید نظری وجود ندارد. گزارشهای اخیر در مورد قابلیت اطمینان هوش مصنوعی زنگ خطرهای مشابهی را به صدا درآوردهاند.
در 328 ادعایی که هر پنج مدل بر روی آن توافق داشتند، هیچ کدام به اتفاق آرا "عمدتاً صحیح" دریافت نکردند. سطل ظرافتها کاملاً خالی ماند. اگر مدلهای هوش مصنوعی تنها میتوانند در افراطها به اجماع برسند، آیا میتوان به آنها به عنوان راستیآزماییکننده اعتماد کرد؟