
Um novo estudo apresenta um número sobre a quantidade de internet que é agora gerada por IA: 35%. Essa é a parcela de websites recém-publicados classificados como gerados por IA ou assistidos por IA até meados de 2025, de acordo com uma pesquisa da Universidade de Stanford, Imperial College London e Internet Archive. O número era essencialmente zero antes do lançamento do ChatGPT em novembro de 2022.
"Considero a velocidade pura da tomada de controlo da web pela IA bastante surpreendente", disse Jonáš Doležal, investigador do Imperial College London e coautor do artigo, ao 404 Media. "Após décadas de humanos a moldá-la, uma parte significativa da internet passou a ser definida pela IA em apenas três anos."
O estudo, intitulado “O Impacto do Texto Gerado por IA na Internet”, baseou-se em 33 meses de snapshots de websites da Wayback Machine do Internet Archive e utilizou um detetor de texto de IA chamado Pangram v3 para classificar cada página.
Os danos confirmados: sensações, não factos
Os investigadores testaram seis hipóteses sobre o que o conteúdo de IA faz à web. Apenas duas foram confirmadas sob escrutínio dos dados.
A primeira: Estamos a transformar-nos numa horda de NPCs burros a agir da mesma forma… Ou, cientificamente falando, a web está a tornar-se menos semanticamente diversa.
Sites gerados por IA mostraram pontuações de similaridade semântica por pares 33% mais altas do que os escritos por humanos. As mesmas ideias continuam a ser expressas de formas quase idênticas.
O artigo sugere que a janela de Overton online pode estar a estreitar, não através de censura ou campanhas coordenadas, mas porque os modelos de linguagem otimizam as saídas para estarem próximas da sua distribuição de treino.
A segunda: A web está a tornar-se agressivamente otimista.
O conteúdo de IA mostrou pontuações de sentimento positivo mais de 107% superiores ao conteúdo humano. Os investigadores associam isto às tendências aduladoras bem documentadas dos LLMs — treinados com sinais de aprovação humana, eles produzem texto que parece sanitizado, sem atritos e implacavelmente otimista.
Uma internet inundada de conteúdo otimista e homogeneizado pode marginalizar a dissidência humana em grande escala sem que ninguém precise de intervir.
Apesar da crença pública generalizada, o estudo não encontrou provas estatisticamente significativas de que o conteúdo de IA esteja a tornar a internet menos factualmente precisa. Os investigadores não encontraram correlação significativa entre a prevalência de IA e a taxa de erro factual.
A hipótese da monocultura estilística — a IA a achatar vozes individuais num registo genérico uniforme — foi a crença que os inquiridos mais defendiam (83% concordaram). Os dados não a confirmaram. A análise ao nível dos caracteres não encontrou um aumento estatisticamente significativo na homogeneidade estilística ligada à prevalência da IA.
As apostas mais amplas vão além da qualidade do discurso. Com 35% de prevalência de IA, o risco teórico de colapso do modelo — onde modelos futuros se degradam após o treino em dados gerados por IA — passa de uma preocupação académica para uma realidade empírica. Os futuros modelos de fundação treinados em rastreamentos web contemporâneos irão inevitavelmente ingerir dados que são substancialmente gerados por IA e mensuravelmente menos semanticamente diversos.
A equipa está agora a trabalhar com o Internet Archive para transformar o estudo numa ferramenta de monitorização contínua e em tempo real, acompanhando a quota de IA na web em tempo real, em vez de um instantâneo único.
Um inquérito nos EUA conduzido em paralelo com o estudo revelou que a maioria dos americanos já acredita em todas as seis hipóteses negativas, incluindo aquelas que os dados não apoiam. Pessoas que usam IA com pouca frequência eram 12% mais propensas a acreditar nos danos do que os utilizadores frequentes. Crentes na Teoria da Internet Morta, conheçam os dados: A internet não está morta, mas 35% do que é novo é provavelmente conteúdo zumbi de alguma forma.