
Nowe badanie podaje liczbę, ile internetu jest obecnie generowane przez sztuczną inteligencję: 35%. Taki jest odsetek nowo opublikowanych stron internetowych sklasyfikowanych jako generowane przez AI lub wspomagane przez AI do połowy 2025 roku, według badań przeprowadzonych przez Uniwersytet Stanforda, Imperial College London i Internet Archive. Liczba ta wynosiła praktycznie zero przed uruchomieniem ChatGPT w listopadzie 2022 roku.
"Uważam, że oszałamiająca jest szybkość przejęcia internetu przez AI," powiedział 404 Media Jonáš Doležal, badacz z Imperial College London i współautor pracy. "Po dziesięcioleciach kształtowania go przez ludzi, znacząca część internetu została zdefiniowana przez AI w zaledwie trzy lata."
Badanie, zatytułowane „Wpływ tekstu generowanego przez AI na Internet”, opierało się na 33 miesiącach migawek stron internetowych z Wayback Machine Internet Archive i wykorzystało detektor tekstu AI o nazwie Pangram v3 do klasyfikacji każdej strony.
Potwierdzone szkody: wrażenia, nie fakty
Badacze przetestowali sześć hipotez dotyczących wpływu treści AI na sieć. Tylko dwie z nich zostały potwierdzone przez analizę danych.
Pierwsza: Zmieniamy się w hordę głupich NPC-ów działających w ten sam sposób… Lub, ujmując to bardziej naukowo, sieć staje się mniej zróżnicowana semantycznie.
Strony generowane przez AI wykazywały wyniki podobieństwa semantycznego w parach o 33% wyższe niż te pisane przez ludzi. Te same pomysły są wciąż wyrażane w niemal identyczny sposób.
Praca sugeruje, że online'owe okno Overtona może się zawężać, nie poprzez cenzurę czy skoordynowane kampanie, lecz dlatego, że modele językowe optymalizują wyniki zbliżone do ich rozkładu treningowego.
Druga: Sieć staje się agresywnie wesoła.
Treści AI wykazywały wyniki pozytywnego sentymentu o ponad 107% wyższe niż treści ludzkie. Badacze wiążą to z dobrze udokumentowanymi, sycophantycznymi tendencjami dużych modeli językowych (LLM) – szkolone na sygnałach akceptacji ludzkiej, produkują tekst, który wydaje się wyczyszczony, bezkonfliktowy i nieustannie optymistyczny.
Internet zalany wesołymi, homogenizowanymi treściami może marginalizować ludzki sprzeciw na dużą skalę, bez niczyjej ingerencji.
Pomimo powszechnego przekonania publicznego, badanie nie znalazło statystycznie istotnych dowodów na to, że treści AI sprawiają, iż internet jest mniej dokładny pod względem faktów. Badacze nie znaleźli istotnej korelacji między rozpowszechnieniem AI a wskaźnikiem błędów faktograficznych.
Hipoteza o monokulturze stylistycznej – spłaszczaniu przez AI indywidualnych głosów do ogólnego, jednolitego rejestru – była przekonaniem, które respondenci podzielali najsilniej (83% się zgodziło). Dane tego nie potwierdziły. Analiza na poziomie znaków nie wykazała statystycznie istotnego wzrostu stylistycznej jednorodności związanego z rozpowszechnieniem AI.
Szersze konsekwencje wykraczają poza jakość dyskursu. Przy 35% rozpowszechnieniu AI, teoretyczne ryzyko załamania modelu – gdzie przyszłe modele ulegają degradacji po treningu na danych generowanych przez AI – przesuwa się z akademickiego zmartwienia na empiryczną rzeczywistość. Przyszłe modele fundamentalne, szkolone na współczesnych zasobach internetowych, nieuchronnie będą przyswajać dane, które są w znacznym stopniu generowane przez AI i zauważalnie mniej zróżnicowane semantycznie.
Zespół pracuje obecnie z Internet Archive nad przekształceniem badania w ciągłe narzędzie monitorujące w czasie rzeczywistym, śledzące udział AI w sieci, a nie jako jednorazową migawkę.
Badanie przeprowadzone w USA równolegle z analizą wykazało, że większość Amerykanów już wierzy we wszystkie sześć negatywnych hipotez, w tym te, których dane nie potwierdzają. Osoby, które rzadko korzystają z AI, były o 12% bardziej skłonne wierzyć w szkody niż użytkownicy części. Wyznawcy teorii martwego internetu, poznajcie dane: internet nie jest martwy, ale 35% nowej zawartości to prawdopodobnie w jakiś sposób treści zombie.