
Zapytaj pięć najbardziej zaawansowanych systemów AI na świecie, czy stwierdzenie jest prawdziwe, a dwie trzecie czasu przynajmniej jeden poda ci inną odpowiedź. To wnioski z nowego badania opublikowanego w tym miesiącu przez badacza Kostę Jordanova z Lenz Research.
W badaniu GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro z funkcją wyszukiwania i Sonar Pro otrzymały te same 1000 rzeczywistych roszczeń sprawdzanych pod kątem faktów, przesłanych przez rzeczywistych użytkowników. Modele musiały wybrać jedną z czterech etykiet: prawdziwe, w większości prawdziwe, wprowadzające w błąd lub fałszywe.
W 672 z 1000 roszczeń przynajmniej jeden model odbiegał od większości. W 34% przypadków niezgoda była poważna: jeden model nazwał roszczenie prawdziwym, podczas gdy inny nazwał je fałszywym.
„To nie są elementy testowe z publicznymi kluczami odpowiedzi — to roszczenia, które prawdziwi użytkownicy przesłali do platformy weryfikacji faktów” – czytamy w badaniu. „Tylko jedna kategoria werdyktu może być poprawna dla danego roszczenia, więc każda niezgoda w panelu oznacza, że werdykt przynajmniej jednego modelu jest niezgodny z etykietą w ramach tej czterostopniowej skali.”
Poprzednie badania nad halucynacjami AI wykazały, że chatboty zmyślają fakty. To jeden problem. To jest inny. Modele niekoniecznie wymyślają rzeczy, po prostu nie mogą dojść do porozumienia w podstawowych osądach faktycznych dotyczących tego samego materiału.
Badanie wykorzystało ustawienie, które utrudnia firmom AI wyjaśnienie sytuacji. Zamiast pobierać roszczenia ze standardowych zestawów testowych — takich, które często przenikają do danych treningowych — badacze użyli roszczeń przesłanych przez prawdziwych ludzi do platformy weryfikacji faktów Lenz. „Większość z tych roszczeń prawdopodobnie nie pojawi się w żadnym korpusie treningowym z dołączoną 'złotą etykietą' — nie ma kanonicznego klucza odpowiedzi, z którym można by dopasować wzorce, ani żadnego rankingu benchmarków, do którego można by się odnieść” – zauważa artykuł.
Statystyczna miara zgodności, zwana alfą Krippendorffa, wyniosła 0,639 w skali, gdzie 1,0 oznacza idealną zgodność, a 0 oznacza przypadkową szansę. Badanie mówi, że wskazuje to na „niebanalną, ale ograniczoną zgodność”. „Werdykty modeli są ustrukturyzowane, a nie przypadkowe, ale nie są wystarczająco spójne, aby traktować panel jako pojedynczego, wymiennego sędziego” – zauważają badacze. Naukowcy ogólnie uważają wszystko poniżej 0,8 za słabe.
Kiedy wszystkie pięć modeli zgodziło się — co miało miejsce tylko w 328 z 1000 roszczeń — prawie nigdy nie zgodziły się, że coś było wprowadzające w błąd lub w większości prawdziwe. Tylko cztery roszczenia otrzymały jednogłośny werdykt „wprowadzający w błąd”. Zero otrzymało jednogłośne „w większości prawdziwe”.
Badacze przedstawili przykładowe roszczenia, w których modele AI wykazywały największą rozbieżność, w tym „Aktywny portfel Banku Światowego w Nigerii wynosi ponad 16,4 miliarda dolarów na rok 2025”. ChatGPT 5.4 uznał to za „w większości prawdziwe”, podczas gdy Gemini 3 Pro nazwał to „fałszywym”, a jego siostrzany model Gemini 3 Pro + Search ocenił to jako „wprowadzające w błąd”.
W innym przykładzie, modelom przedstawiono twierdzenie: „Donald Trump powiedział, że atak na Iran został przełożony na prośbę sojuszników z Zatoki Perskiej”. GPT-5.4 uznał to za fałsz, Claude Opus 4.7 nazwał to w większości prawdziwym, Gemini 3 Pro uznał to za fałsz, a Gemini 3 Pro + Search ocenił to jako prawdziwe.
„Panel zbiega się w definitywnych werdyktach; środek skali jest miejscem, w którym następuje rozłam” – stwierdzili badacze. Jednogłośność występowała tylko w skrajnych przypadkach: albo roszczenie było zdecydowanie prawdziwe, albo zdecydowanie fałszywe.
Ma to znaczenie, ponieważ ludzie coraz częściej zwracają się do systemów AI w celu weryfikacji faktów. Jeśli wkleisz twierdzenie z artykułu prasowego do ChatGPT, Claude'a lub Gemini, możesz otrzymać trzy różne odpowiedzi. Której z nich zaufasz?
Firmy AI uwielbiają mówić, że ich modele stają się coraz dokładniejsze. Publikują wyniki testów porównawczych (benchmarków), pokazujące stałą poprawę. Jednak badanie Lenz przetestowało te modele na rodzajach nierównych, niejednoznacznych roszczeń, o których prawdziwi ludzie faktycznie się spierają — i okazało się, że modele również się spierają.
Artykuł starannie to podkreśla. „Większość wiodących modeli nie jest prawdą absolutną. Werdykt większości jest czasem błędny; indywidualny model mniejszości jest czasem poprawny. Używamy większości jako strukturalnego punktu odniesienia do mierzenia niezgody, a nie jako substytutu poprawności.”
W liczbach ukryty jest głębszy problem. Gdy modele się nie zgadzają, przynajmniej jeden z nich musi się mylić — badanie nazywa werdykt modelu „niezgodnym z etykietą w ramach tej czterostopniowej skali”. Nie ma mechanizmu rozstrzygającego, ani sądu apelacyjnego. Ostatnie doniesienia na temat wiarygodności AI wywołały podobne obawy.
W przypadku 328 roszczeń, w których wszystkie pięć modeli się zgodziło, zero otrzymało jednogłośny werdykt „w większości prawdziwe”. Kategoria niuansów całkowicie się opróżniła. Jeśli modele AI mogą znaleźć konsensus tylko w skrajnościach, czy w ogóle można im ufać jako weryfikatorom faktów?