ai-models-disagree-fact-checking-two-thirds-study
مدل‌های هوش مصنوعی اغلب اوقات بر سر حقایق اساسی به توافق نمی‌رسند، مطالعه‌ای نشان می‌دهد
یک مطالعه جدید، ۱۰۰۰ ادعای واقعی را برای راستی‌آزمایی در اختیار پنج مدل پیشرو هوش مصنوعی قرار داد. این مدل‌ها در ۶۷٪ از این ادعاها با یکدیگر اختلاف نظر داشتند.
2026-05-29 منبع:decrypt.co

به طور خلاصه

  • پنج مدل پیشرفته هوش مصنوعی در 67 درصد از 1000 ادعای واقعی بررسی‌شده برای صحت، با یکدیگر اختلاف نظر داشتند.
  • توافق یکپارچه تنها در 328 ادعا حاصل شد.
  • با آلفای کریپندورف 0.639، این مدل‌ها پایین‌تر از آستانه قابلیت اطمینان 0.8 قرار می‌گیرند.


اگر از پنج سیستم پیشرفته هوش مصنوعی جهان بپرسید که آیا یک گزاره صحیح است، دو سوم مواقع حداقل یکی از آنها پاسخ متفاوتی به شما خواهد داد. این یافته یک مطالعه جدید است که این ماه توسط محقق کوستا یوردانوف در Lenz Research منتشر شده است.

این مطالعه به مدل‌های GPT-5.4، Claude Opus 4.7، Gemini 3 Pro، Gemini 3 Pro با قابلیت جستجو، و Sonar Pro، همان 1000 ادعای واقعی که توسط کاربران حقیقی برای بررسی صحت ارائه شده بود، را داد. مدل‌ها باید یکی از چهار برچسب "صحیح"، "عمدتاً صحیح"، "گمراه‌کننده" یا "غلط" را انتخاب می‌کردند.

در 672 مورد از 1000 ادعا، حداقل یکی از مدل‌ها با اکثریت مخالف بود. در 34 درصد موارد، این اختلاف نظر شدید بود: یک مدل ادعایی را صحیح می‌دانست در حالی که دیگری آن را غلط می‌خواند.

این مطالعه می‌خواند: "اینها موارد بنچمارک با کلیدهای پاسخ عمومی نیستند—اینها ادعاهایی هستند که کاربران واقعی برای بررسی به یک پلتفرم راستی‌آزمایی ارائه کرده‌اند." "تنها یک سطل قضاوت می‌تواند برای هر ادعا صحیح باشد، بنابراین هرگونه اختلاف نظر در بین هیئت به این معنی است که حداقل قضاوت یکی از مدل‌ها تحت این چهار دسته ناسازگار است."

مطالعات قبلی در مورد توهمات هوش مصنوعی نشان داده‌اند که چت‌بات‌ها حقایق را اختراع می‌کنند. این یک مشکل است. اما این یک مشکل متفاوت است. مدل‌ها لزوماً چیزی را از خودشان نمی‌سازند، بلکه فقط نمی‌توانند بر روی قضاوت‌های واقعی اولیه در مورد یک محتوای یکسان به توافق برسند.

این تحقیق از یک چارچوب استفاده کرده است که توجیه کردن نتایج را برای شرکت‌های هوش مصنوعی دشوارتر می‌کند. به جای استفاده از ادعاهای مجموعه‌های آزمایشی استاندارد – که اغلب به داده‌های آموزشی نشت می‌کنند – محققان از ادعاهایی استفاده کردند که توسط افراد واقعی به پلتفرم راستی‌آزمایی Lenz ارسال شده بود. این مقاله خاطرنشان می‌کند: "اکثر این ادعاها بعید است که در هیچ مجموعه داده آموزشی با برچسب صحیح مشخص شده باشند – هیچ کلید پاسخ قطعی برای تطبیق الگو وجود ندارد و هیچ جدول رتبه‌بندی بنچمارک برای اتکا به آن وجود ندارد."

معیار آماری توافق، که آلفای کریپندورف نامیده می‌شود، 0.639 بود؛ در مقیاسی که 1.0 به معنای توافق کامل و 0 به معنای شانس تصادفی است. این مطالعه می‌گوید که این مقدار نشان‌دهنده "توافق غیربدیهی اما محدود" است. محققان خاطرنشان می‌کنند: "قضاوت‌های مدل‌ها ساختاریافته هستند و نه تصادفی، اما به اندازه‌ای ثابت نیستند که بتوان هیئت را به عنوان یک قاضی واحد و قابل تعویض در نظر گرفت." محققان به طور کلی هر چیزی زیر 0.8 را ضعیف می‌دانند.

هنگامی که هر پنج مدل به توافق رسیدند – که این اتفاق تنها در 328 مورد از 1000 ادعا رخ داد – تقریباً هیچگاه توافق نکردند که چیزی گمراه‌کننده یا عمدتاً صحیح است. تنها چهار ادعا حکم "گمراه‌کننده" اجماعی دریافت کردند. هیچ ادعایی حکم "عمدتاً صحیح" اجماعی دریافت نکرد.

محققان نمونه‌هایی از ادعاها را ارائه کردند که در آنها مدل‌های هوش مصنوعی بیشترین واگرایی را نشان دادند، از جمله "پورتفولیوی فعال بانک جهانی در نیجریه تا سال 2025 بیش از 16.4 میلیارد دلار است." ChatGPT 5.4 آن را "عمدتاً صحیح" دانست در حالی که Gemini 3 Pro آن را "غلط" و مدل خواهر آن، Gemini 3 Pro + Search، آن را "گمراه‌کننده" ارزیابی کرد.

در مثالی دیگر، ادعای زیر به مدل‌ها داده شد: "دونالد ترامپ گفت که حمله به ایران به درخواست متحدان خلیج فارس به تعویق افتاد." GPT-5.4 آن را غلط دانست، Claude Opus 4.7 آن را عمدتاً صحیح نامید، Gemini 3 Pro آن را غلط گفت، و Gemini 3 Pro + Search آن را صحیح ارزیابی کرد.

محققان دریافتند: "هیئت بر روی احکام قطعی به همگرایی می‌رسد؛ اما در میانه دسته‌بندی است که دچار گسست می‌شود." اتفاق نظر تنها در موارد شدید رخ می‌داد: یا ادعا قطعاً صحیح بود یا قطعاً غلط.

این موضوع اهمیت دارد زیرا مردم به طور فزاینده‌ای برای راستی‌آزمایی به سیستم‌های هوش مصنوعی روی می‌آورند. اگر یک ادعا از یک مقاله خبری را در ChatGPT، Claude یا Gemini وارد کنید، ممکن است سه پاسخ متفاوت دریافت کنید. به کدام یک اعتماد می‌کنید؟

شرکت‌های هوش مصنوعی دوست دارند به شما بگویند که مدل‌هایشان در حال دقیق‌تر شدن هستند. آنها نمرات بنچمارک را منتشر می‌کنند که بهبود مستمر را نشان می‌دهد. اما مطالعه Lenz این مدل‌ها را بر روی همان ادعاهای ناهموار و مبهمی آزمایش کرد که انسان‌های واقعی درباره آنها بحث می‌کنند – و دریافت که مدل‌ها نیز با هم بحث می‌کنند.

این مقاله با دقت این نکته را بیان می‌کند. "اکثریت مدل‌های پیشرفته حقیقت مطلق نیستند. حکم اکثریت گاهی اوقات اشتباه است؛ یک مدل مخالف فردی گاهی اوقات درست می‌گوید. ما از اکثریت به عنوان یک نقطه مرجع ساختاری برای اندازه‌گیری اختلاف نظر استفاده می‌کنیم، نه به عنوان جایگزینی برای صحت."

یک مشکل عمیق‌تر در این اعداد پنهان است. وقتی مدل‌ها با هم اختلاف نظر دارند، حداقل یکی از آنها باید اشتباه کند – این مطالعه حکم یک مدل را "ناسازگار با برچسب‌گذاری تحت این چهار دسته" می‌نامد. هیچ مکانیسم حل اختلاف، هیچ دادگاه تجدید نظری وجود ندارد. گزارش‌های اخیر در مورد قابلیت اطمینان هوش مصنوعی زنگ خطرهای مشابهی را به صدا درآورده‌اند.

در 328 ادعایی که هر پنج مدل بر روی آن توافق داشتند، هیچ کدام به اتفاق آرا "عمدتاً صحیح" دریافت نکردند. سطل ظرافت‌ها کاملاً خالی ماند. اگر مدل‌های هوش مصنوعی تنها می‌توانند در افراط‌ها به اجماع برسند، آیا می‌توان به آنها به عنوان راستی‌آزمایی‌کننده اعتماد کرد؟

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!