Krypto-News-Tag-Aggregation & thematische Inhalte

ai-models-disagree-fact-checking-two-thirds-study

Laut Studie: KI-Modelle sind sich oft bei Grundfakten uneinig

Eine neue Studie hat fünf führenden KI-Modellen 1.000 reale Behauptungen zur Faktenprüfung vorgelegt. Bei 67 % davon waren sie sich uneinig.

2026-05-29 Quelle:decrypt.co

Große Sprachmodelle

Kurz gesagt

Fünf führende KI-Modelle waren sich bei 67 % von 1.000 realen Faktencheck-Behauptungen uneinig.
Eine einstimmige Übereinstimmung gab es nur bei 328 Behauptungen.
Mit einem Krippendorffs Alpha von 0,639 liegen die Modelle unter der Zuverlässigkeitsschwelle von 0,8.

Fragt man fünf der weltweit fortschrittlichsten KI-Systeme, ob eine Aussage wahr ist, erhält man in zwei Dritteln der Fälle von mindestens einem eine andere Antwort. Das ist das Ergebnis einer neuen Studie, die diesen Monat von Forscher Kosta Jordanov bei Lenz Research veröffentlicht wurde.

Die Studie gab GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro mit Search und Sonar Pro dieselben 1.000 realen Faktencheck-Behauptungen, die von tatsächlichen Nutzern eingereicht wurden. Die Modelle mussten eines von vier Labels wählen: wahr, größtenteils wahr, irreführend oder falsch.

Bei 672 von 1.000 Behauptungen wich mindestens ein Modell von der Mehrheit ab. In 34 % der Fälle war die Uneinigkeit erheblich: Ein Modell bezeichnete eine Behauptung als wahr, während ein anderes sie als falsch einstufte.

“Hierbei handelt es sich nicht um Benchmark-Elemente mit öffentlichen Antwortschlüsseln – es sind Behauptungen, die von echten Nutzern zur Überprüfung an eine Faktencheck-Plattform übermittelt wurden”, heißt es in der Studie. “Pro Behauptung kann nur eine Urteilsfindung korrekt sein, sodass jede Meinungsverschiedenheit unter den Modellen bedeutet, dass das Urteil mindestens eines Modells unter dieser 4-stufigen Bewertungsmatrix nicht etikettenkonform ist.”

Frühere Studien zu KI-Halluzinationen haben gezeigt, dass Chatbots Fakten erfinden. Das ist ein Problem. Dies ist ein anderes. Die Modelle erfinden nicht unbedingt Dinge, sie können sich nur nicht auf grundlegende Faktenbeurteilungen desselben Materials einigen.

Die Forschung verwendete eine Konfiguration, die es den KI-Unternehmen erschwert, sich herauszureden. Anstatt Behauptungen aus Standard-Testdatensätzen – der Art, die oft in Trainingsdaten gelangen – zu ziehen, verwendeten die Forscher Behauptungen, die von echten Menschen an die Lenz'sche Faktencheck-Plattform übermittelt wurden. “Die meisten dieser Behauptungen werden wahrscheinlich nicht in einem Trainingskorpus mit einem Gold-Label erscheinen – es gibt keinen kanonischen Antwortschlüssel zum Abgleich von Mustern, keine Benchmark-Bestenliste, an der man sich orientieren könnte”, heißt es im Papier.

Das statistische Maß der Übereinstimmung, Krippendorffs Alpha genannt, lag bei 0,639 auf einer Skala, bei der 1,0 perfekte Übereinstimmung und 0 zufällige Übereinstimmung bedeutet. Die Studie besagt, dass dies eine “nicht unerhebliche, aber begrenzte Übereinstimmung” anzeigt. “Die Urteile der Modelle sind strukturiert statt zufällig, aber nicht konsistent genug, um das Panel als einen einzigen austauschbaren Gutachter zu behandeln”, merken die Forscher an. Forscher betrachten im Allgemeinen alles unter 0,8 als schwach.

Als sich alle fünf Modelle einig waren – was nur bei 328 von 1.000 Behauptungen der Fall war – waren sie sich fast nie einig, dass etwas irreführend oder größtenteils wahr war. Nur vier Behauptungen erhielten ein einstimmiges Urteil “irreführend”. Null erhielten ein einstimmiges “größtenteils wahr”.

Die Forscher lieferten Beispielbehauptungen, bei denen die KI-Modelle die größte Divergenz zeigten, darunter “Das aktive Portfolio der Weltbank in Nigeria beläuft sich ab 2025 auf über 16,4 Milliarden US-Dollar.” ChatGPT 5.4 sagte, es sei “größtenteils wahr”, während Gemini 3 Pro es als “falsch” bezeichnete und sein Schwestermodell Gemini 3 Pro + Search es als “irreführend” einstufte.

In einem anderen Beispiel wurden den Modellen die Behauptung vorgelegt: “Donald Trump sagte, dass ein Angriff auf den Iran auf Wunsch der Golf-Verbündeten verschoben wurde.” GPT-5.4 sagte, es sei falsch, Claude Opus 4.7 nannte es größtenteils wahr, Gemini 3 Pro sagte falsch, und Gemini 3 Pro + Search stufte es als wahr ein.

“Das Panel konvergiert zu definitiven Urteilen; die Mitte der Bewertungskriterien ist der Bruchpunkt”, fanden die Forscher heraus. Einstimmigkeit gab es nur an den Extremen: Entweder war die Behauptung definitiv wahr oder definitiv falsch.

Das ist wichtig, da Menschen zunehmend KI-Systeme für den Faktencheck nutzen. Wenn Sie eine Behauptung aus einem Nachrichtenartikel in ChatGPT, Claude oder Gemini einfügen, erhalten Sie möglicherweise drei verschiedene Antworten. Welcher vertrauen Sie?

KI-Unternehmen lieben es, uns zu erzählen, dass ihre Modelle immer genauer werden. Sie veröffentlichen Benchmark-Ergebnisse, die eine stetige Verbesserung zeigen. Aber die Lenz-Studie testete diese Modelle an den verwickelten, mehrdeutigen Behauptungen, über die sich echte Menschen tatsächlich streiten – und stellte fest, dass die Modelle auch streiten.

Das Papier weist darauf sorgfältig hin. “Eine Mehrheit der führenden Modelle ist keine Grundwahrheit. Das Mehrheitsurteil ist manchmal falsch; ein einzelnes abweichendes Modell ist manchmal richtig. Wir verwenden die Mehrheit als strukturellen Referenzpunkt zur Messung der Uneinigkeit, nicht als Stellvertreter für Korrektheit.”

Es gibt ein tieferes Problem, das in den Zahlen verborgen liegt. Wenn Modelle sich widersprechen, muss mindestens eines von ihnen falsch sein – die Studie bezeichnet das Urteil eines Modells als “nicht etikettenkonform unter dieser 4-stufigen Bewertungsmatrix”. Es gibt keinen Entscheidungsmechanismus, kein Berufungsgericht. Jüngste Berichte über die KI-Zuverlässigkeit haben ähnliche Bedenken geäußert.

Bei den 328 Behauptungen, bei denen sich alle fünf Modelle einig waren, erhielt keine ein einstimmiges “größtenteils wahr”. Der Nuancenbereich leerte sich vollständig. Wenn KI-Modelle nur an den Extremen Konsens finden können, können sie dann überhaupt als Faktenchecker vertraut werden?