
Întrebați cinci dintre cele mai avansate sisteme AI din lume dacă o afirmație este adevărată, iar în două treimi din cazuri, cel puțin unul vă va da un răspuns diferit. Aceasta este concluzia unui nou studiu publicat luna aceasta de cercetătorul Kosta Jordanov de la Lenz Research.
Studiul a oferit modelelor GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro cu Căutare și Sonar Pro aceleași 1.000 de afirmații reale de verificare a faptelor, trimise de utilizatori reali. Modelele au trebuit să aleagă una dintre cele patru etichete: adevărat, preponderent adevărat, înșelător sau fals.
În 672 din 1.000 de afirmații, cel puțin un model s-a distins de majoritate. În 34% din cazuri, dezacordul a fost sever: un model a catalogat o afirmație ca fiind adevărată, în timp ce altul a numit-o falsă.
„Acestea nu sunt elemente de referință cu chei de răspuns publice – sunt afirmații pe care utilizatorii reali le-au trimis pentru verificare unei platforme de verificare a faptelor”, se arată în studiu. „Doar o singură categorie de verdict poate fi corectă pentru fiecare afirmație, astfel încât orice dezacord în rândul panelului înseamnă că verdictul cel puțin unui model este inconsecvent din punct de vedere al etichetei conform acestei rubrici cu 4 categorii.”
Studiile anterioare despre halucinația AI au arătat că chatbot-urile inventează fapte. Aceasta este o problemă. Aceasta este alta. Modelele nu inventează neapărat lucruri, pur și simplu nu pot ajunge la un acord asupra unor judecăți factuale de bază despre același material.
Cercetarea a utilizat o configurație care face mai dificilă pentru companiile AI să își justifice rezultatele. În loc să extragă afirmații din seturi de testare standard – genul care adesea se regăsesc în datele de antrenament – cercetătorii au folosit afirmații trimise de persoane reale platformei de verificare a faptelor Lenz. „Majoritatea acestor afirmații este puțin probabil să apară în orice corpus de antrenament cu o etichetă de aur atașată – nu există o cheie de răspuns canonică cu care să se potrivească, nici un clasament de referință la care să se raporteze”, se arată în lucrare.
Măsura statistică a acordului, numită alfa Krippendorff, a fost de 0,639 pe o scară unde 1,0 înseamnă acord perfect și 0 înseamnă șansă aleatorie. Studiul afirmă că aceasta indică „un acord non-trivial, dar limitat”. „Verdictele modelelor sunt structurate, mai degrabă decât aleatorii, dar nu suficient de consistente pentru a trata panelul ca pe un singur judecător interschimbabil”, notează cercetătorii. Cercetătorii consideră, în general, că orice valoare sub 0,8 este slabă.
Atunci când toate cele cinci modele au fost de acord – ceea ce s-a întâmplat doar în 328 din 1.000 de afirmații – ele aproape niciodată nu au fost de acord că ceva era înșelător sau preponderent adevărat. Doar patru afirmații au primit un verdict unanim de „înșelător”. Zero au primit un verdict unanim de „preponderent adevărat”.
Cercetătorii au oferit exemple de afirmații unde modelele AI au prezentat cea mai mare divergență, inclusiv „Portofoliul activ al Băncii Mondiale în Nigeria se ridică la peste 16,4 miliarde de dolari începând cu 2025.” ChatGPT 5.4 a spus că este „preponderent adevărat”, în timp ce Gemini 3 Pro l-a numit „fals”, iar modelul său soră, Gemini 3 Pro + Search, l-a evaluat ca „înșelător”.
Într-un alt exemplu, modelelor li s-a oferit afirmația: „Donald Trump a spus că un atac asupra Iranului a fost amânat la cererea Aliaților din Golf.” GPT-5.4 a spus că este fals, Claude Opus 4.7 l-a numit preponderent adevărat, Gemini 3 Pro a spus că este fals, iar Gemini 3 Pro + Search l-a evaluat ca fiind adevărat.
„Panelul converge asupra unor verdicte definitive; mijlocul rubricei este locul unde se fracturează”, au constatat cercetătorii. Unanimitatea a apărut doar la extreme: fie afirmația era cu siguranță adevărată, fie cu siguranță falsă.
Acest lucru este important, deoarece oamenii apelează din ce în ce mai mult la sistemele AI pentru verificarea faptelor. Dacă introduceți o afirmație dintr-un articol de știri în ChatGPT, Claude sau Gemini, s-ar putea să primiți trei răspunsuri diferite. Pe care îl veți crede?
Companiilor AI le place să spună că modelele lor devin din ce în ce mai precise. Ele publică scoruri de referință care arată o îmbunătățire constantă. Dar studiul Lenz a testat aceste modele pe tipurile de afirmații complexe și ambigue pe care oamenii reali le contestă – și a constatat că și modelele se contrazic.
Lucrarea subliniază cu atenție acest lucru. „O majoritate a modelelor de vârf nu reprezintă adevărul fundamental. Verdictul majorității este uneori greșit; un model individual care nu este de acord este uneori corect. Utilizăm majoritatea ca punct de referință structural pentru măsurarea dezacordului, nu ca un substitut pentru corectitudine.”
Există o problemă mai profundă ascunsă în cifre. Când modelele nu sunt de acord, cel puțin unul dintre ele trebuie să fie greșit – studiul numește verdictul unui model „inconsecvent din punct de vedere al etichetei conform acestei rubrici cu 4 categorii.” Nu există un mecanism de departajare, nicio curte de apel. Rapoarte recente privind fiabilitatea AI au ridicat alarme similare.
Dintre cele 328 de afirmații asupra cărora toate cele cinci modele au fost de acord, zero au primit un verdict unanim de „preponderent adevărat”. Categoria nuanțelor s-a golit complet. Dacă modelele AI pot găsi consens doar la extreme, pot fi ele de încredere ca verificatori de fapte?