
Sebuah studi baru memiliki angka tentang berapa banyak dari internet yang sekarang dihasilkan oleh AI: 35%. Itulah pangsa situs web yang baru diterbitkan yang diklasifikasikan sebagai dihasilkan AI atau dibantu AI pada pertengahan 2025, menurut penelitian dari Stanford University, Imperial College London, dan Internet Archive. Angka tersebut pada dasarnya nol sebelum ChatGPT diluncurkan pada November 2022.
"Saya merasa kecepatan pengambilalihan web oleh AI ini sungguh mencengangkan," kata Jonáš Doležal, peneliti di Imperial College London dan salah satu penulis makalah tersebut, kepada 404 Media. "Setelah puluhan tahun dibentuk oleh manusia, sebagian besar internet telah ditentukan oleh AI hanya dalam tiga tahun."
Studi tersebut, berjudul “Dampak Teks yang Dihasilkan AI di Internet,” didasarkan pada 33 bulan cuplikan situs web dari Wayback Machine milik Internet Archive dan menggunakan detektor teks AI bernama Pangram v3 untuk mengklasifikasikan setiap halaman.
Kerugian yang terkonfirmasi: suasana hati, bukan fakta
Para peneliti menguji enam hipotesis tentang apa yang dilakukan konten AI terhadap web. Hanya dua yang terbukti benar berdasarkan pemeriksaan data.
Yang pertama: Kita berubah menjadi gerombolan NPC bodoh yang bertindak dengan cara yang sama… Atau secara ilmiah, web menjadi kurang beragam secara semantik.
Situs yang dihasilkan AI menunjukkan skor kemiripan semantik berpasangan 33% lebih tinggi daripada situs yang ditulis manusia. Ide-ide yang sama terus diungkapkan dengan cara yang hampir sama.
Makalah tersebut menunjukkan bahwa jendela Overton daring mungkin menyempit, bukan karena sensor atau kampanye terkoordinasi, tetapi karena model bahasa mengoptimalkan keluaran yang mendekati distribusi pelatihan mereka.
Yang kedua: Web menjadi sangat ceria.
Konten AI menunjukkan skor sentimen positif lebih dari 107% lebih tinggi daripada konten manusia. Para peneliti mengaitkan hal ini dengan kecenderungan sycophantic LLM yang terdokumentasi dengan baik—dilatih berdasarkan sinyal persetujuan manusia, mereka menghasilkan teks yang terasa disanitasi, bebas gesekan, dan sangat optimis.
Internet yang dibanjiri konten yang ceria dan homogen dapat meminggirkan perbedaan pendapat manusia dalam skala besar tanpa ada yang menarik tuas.
Meskipun kepercayaan publik meluas, penelitian ini tidak menemukan bukti yang signifikan secara statistik bahwa konten AI membuat internet kurang akurat secara faktual. Para peneliti tidak menemukan korelasi yang berarti antara prevalensi AI dan tingkat kesalahan faktual.
Hipotesis monokultur gaya—AI meratakan suara individu menjadi register seragam generik—adalah keyakinan yang paling kuat dipegang oleh responden (83% setuju). Data tidak mengkonfirmasinya. Analisis tingkat karakter tidak menemukan peningkatan homogenitas gaya yang signifikan secara statistik terkait dengan prevalensi AI.
Taruhan yang lebih luas melampaui kualitas wacana. Pada prevalensi AI 35%, risiko teoretis kehancuran model—di mana model masa depan menurun setelah dilatih pada data yang dihasilkan AI—bergeser dari kekhawatiran akademis menjadi realitas empiris. Model dasar masa depan yang dilatih pada perayapan web kontemporer pasti akan menyerap data yang sebagian besar dihasilkan AI dan secara terukur kurang beragam secara semantik.
Tim ini sekarang bekerja sama dengan Internet Archive untuk mengubah studi tersebut menjadi alat pemantauan berkelanjutan, melacak pangsa web AI secara real time daripada sebagai cuplikan sekali pakai.
Survei AS yang dilakukan bersamaan dengan studi tersebut menemukan bahwa sebagian besar orang Amerika sudah percaya pada keenam hipotesis negatif, termasuk yang tidak didukung data. Orang yang jarang menggunakan AI 12% lebih mungkin percaya pada bahaya daripada pengguna sering. Para penganut Teori Internet Mati, inilah datanya: Internet tidak mati, tetapi 35% dari apa yang baru mungkin adalah konten zombie dalam beberapa hal.