Agregação de Tags de Notícias Cripto e Conteúdo Temático

one-third-new-websites-ai-generated-study

Internet morto? Um terço dos novos sites são gerados por IA, diz Stanford

Um estudo liderado por Stanford quantificou o que todos já suspeitavam — mas os resultados não são exatamente o que as pessoas esperavam.

2026-04-28 Fonte:decrypt.co

Risco de Colapso do Modelo

Estudo do Internet Archive

Sites Gerados por IA

Em resumo

Até meados de 2025, 35% dos websites recém-publicados foram gerados por IA ou assistidos por IA, um aumento de zero antes do lançamento do ChatGPT em novembro de 2022.
Os efeitos confirmados são a contração semântica e a positividade artificial — e não a desinformação ou a homogeneidade estilística, apesar do que a maioria das pessoas acredita.
Com 35% de prevalência de IA, o risco de colapso do modelo passa de uma preocupação teórica para uma empírica para a próxima geração de modelos de fundação.

Um novo estudo apresenta um número sobre a quantidade de internet que é agora gerada por IA: 35%. Essa é a parcela de websites recém-publicados classificados como gerados por IA ou assistidos por IA até meados de 2025, de acordo com uma pesquisa da Universidade de Stanford, Imperial College London e Internet Archive. O número era essencialmente zero antes do lançamento do ChatGPT em novembro de 2022.

"Considero a velocidade pura da tomada de controlo da web pela IA bastante surpreendente", disse Jonáš Doležal, investigador do Imperial College London e coautor do artigo, ao 404 Media. "Após décadas de humanos a moldá-la, uma parte significativa da internet passou a ser definida pela IA em apenas três anos."

O estudo, intitulado “O Impacto do Texto Gerado por IA na Internet”, baseou-se em 33 meses de snapshots de websites da Wayback Machine do Internet Archive e utilizou um detetor de texto de IA chamado Pangram v3 para classificar cada página.

Os danos confirmados: sensações, não factos

Os investigadores testaram seis hipóteses sobre o que o conteúdo de IA faz à web. Apenas duas foram confirmadas sob escrutínio dos dados.

A primeira: Estamos a transformar-nos numa horda de NPCs burros a agir da mesma forma… Ou, cientificamente falando, a web está a tornar-se menos semanticamente diversa.

Sites gerados por IA mostraram pontuações de similaridade semântica por pares 33% mais altas do que os escritos por humanos. As mesmas ideias continuam a ser expressas de formas quase idênticas.

O artigo sugere que a janela de Overton online pode estar a estreitar, não através de censura ou campanhas coordenadas, mas porque os modelos de linguagem otimizam as saídas para estarem próximas da sua distribuição de treino.

A segunda: A web está a tornar-se agressivamente otimista.

O conteúdo de IA mostrou pontuações de sentimento positivo mais de 107% superiores ao conteúdo humano. Os investigadores associam isto às tendências aduladoras bem documentadas dos LLMs — treinados com sinais de aprovação humana, eles produzem texto que parece sanitizado, sem atritos e implacavelmente otimista.

Uma internet inundada de conteúdo otimista e homogeneizado pode marginalizar a dissidência humana em grande escala sem que ninguém precise de intervir.

Apesar da crença pública generalizada, o estudo não encontrou provas estatisticamente significativas de que o conteúdo de IA esteja a tornar a internet menos factualmente precisa. Os investigadores não encontraram correlação significativa entre a prevalência de IA e a taxa de erro factual.

A hipótese da monocultura estilística — a IA a achatar vozes individuais num registo genérico uniforme — foi a crença que os inquiridos mais defendiam (83% concordaram). Os dados não a confirmaram. A análise ao nível dos caracteres não encontrou um aumento estatisticamente significativo na homogeneidade estilística ligada à prevalência da IA.

O problema do colapso do modelo tornou-se real

As apostas mais amplas vão além da qualidade do discurso. Com 35% de prevalência de IA, o risco teórico de colapso do modelo — onde modelos futuros se degradam após o treino em dados gerados por IA — passa de uma preocupação académica para uma realidade empírica. Os futuros modelos de fundação treinados em rastreamentos web contemporâneos irão inevitavelmente ingerir dados que são substancialmente gerados por IA e mensuravelmente menos semanticamente diversos.

A equipa está agora a trabalhar com o Internet Archive para transformar o estudo numa ferramenta de monitorização contínua e em tempo real, acompanhando a quota de IA na web em tempo real, em vez de um instantâneo único.

Um inquérito nos EUA conduzido em paralelo com o estudo revelou que a maioria dos americanos já acredita em todas as seis hipóteses negativas, incluindo aquelas que os dados não apoiam. Pessoas que usam IA com pouca frequência eram 12% mais propensas a acreditar nos danos do que os utilizadores frequentes. Crentes na Teoria da Internet Morta, conheçam os dados: A internet não está morta, mas 35% do que é novo é provavelmente conteúdo zumbi de alguma forma.