
Un nuevo estudio ha puesto un número a la cantidad de internet que ahora es generada por IA: 35%. Esa es la proporción de sitios web recién publicados clasificados como generados o asistidos por IA para mediados de 2025, según una investigación de la Universidad de Stanford, el Imperial College London y el Internet Archive. La cifra era esencialmente cero antes del lanzamiento de ChatGPT en noviembre de 2022.
"Encuentro asombrosa la velocidad con la que la IA se ha apoderado de la web", dijo Jonáš Doležal, investigador del Imperial College London y coautor del estudio, a 404 Media. "Después de décadas de ser moldeada por humanos, una parte significativa de internet ha sido definida por la IA en solo tres años".
El estudio, titulado “El impacto del texto generado por IA en internet”, se basó en 33 meses de instantáneas de sitios web de la Wayback Machine del Internet Archive y utilizó un detector de texto de IA llamado Pangram v3 para clasificar cada página.
Los daños confirmados: sensaciones, no hechos
Los investigadores probaron seis hipótesis sobre lo que el contenido de IA le hace a la web. Solo dos resistieron el escrutinio de los datos.
La primera: Nos estamos convirtiendo en una horda de NPCs tontos que actúan de la misma manera... O, dicho de forma más científica, la web se está volviendo menos diversa semánticamente.
Los sitios generados por IA mostraron puntuaciones de similitud semántica por pares un 33% más altas que los escritos por humanos. Las mismas ideas se siguen expresando de maneras casi idénticas.
El documento sugiere que la ventana de Overton en línea podría estar estrechándose, no a través de la censura o campañas coordinadas, sino porque los modelos de lenguaje optimizan sus resultados para que estén cerca de su distribución de entrenamiento.
La segunda: La web se está volviendo agresivamente alegre.
El contenido de IA mostró puntuaciones de sentimiento positivo más de un 107% más altas que el contenido humano. Los investigadores vinculan esto con las bien documentadas tendencias aduladoras de los LLMs (modelos de lenguaje grandes)—entrenados con señales de aprobación humana, producen texto que se siente aséptico, sin fricciones y persistentemente optimista.
Una internet inundada de contenido alegre y homogeneizado podría marginar la disidencia humana a gran escala sin que nadie mueva un dedo.
A pesar de la creencia pública generalizada, el estudio no encontró evidencia estadísticamente significativa de que el contenido de IA esté haciendo que internet sea menos preciso en cuanto a hechos. Los investigadores no encontraron una correlación significativa entre la prevalencia de la IA y la tasa de errores fácticos.
La hipótesis de la monocultura estilística —la IA aplanando las voces individuales en un registro genérico uniforme— fue la creencia que los encuestados sostenían con mayor firmeza (el 83% estuvo de acuerdo). Los datos no lo confirmaron. El análisis a nivel de caracteres no encontró un aumento estadísticamente significativo en la homogeneidad estilística ligada a la prevalencia de la IA.
Los riesgos más amplios van más allá de la calidad del discurso. Con una prevalencia de IA del 35%, el riesgo teórico de colapso del modelo —donde los modelos futuros se degradan después de entrenarse con datos generados por IA— pasa de ser una preocupación académica a una realidad empírica. Los futuros modelos fundacionales entrenados en rastreos web contemporáneos ingerirán inevitablemente datos que son sustancialmente generados por IA y mediblemente menos diversos semánticamente.
El equipo está trabajando ahora con el Internet Archive para convertir el estudio en una herramienta de monitoreo continuo y en tiempo real, rastreando la cuota de la IA en la web en vivo en lugar de como una instantánea única.
Una encuesta estadounidense realizada junto con el estudio encontró que la mayoría de los estadounidenses ya creen en las seis hipótesis negativas, incluidas aquellas que los datos no respaldan. Las personas que usan la IA con poca frecuencia tenían un 12% más de probabilidades de creer en los daños que los usuarios frecuentes. Creyentes de la Teoría del Internet Muerto, conozcan los datos: internet no está muerto, pero el 35% de lo nuevo es probablemente contenido zombi de alguna manera.