
DeepReinforce, sebuah laboratorium penelitian AI yang sebelumnya dikenal dengan CUDA-L1 dan *loop* optimasi agen kode IterX, merilis Ornith-1.0 akhir pekan lalu—sebuah keluarga model coding sumber terbuka yang tersedia di Hugging Face dalam empat ukuran berdasarkan jumlah parameter: 9 miliar, 31 miliar, 35 miliar campuran ahli, dan unggulan 397 miliar campuran ahli, semuanya di bawah lisensi MIT tanpa batasan regional.
Parameter pada dasarnya adalah jumlah 'tombol' dan konfigurasi yang dapat ditangani model dalam pelatihannya. Semakin banyak parameter, semakin mumpuni sebuah model. Model 9 miliar parameter dianggap kecil, cukup baik untuk dijalankan di *smartphone* yang bagus, tetapi tidak mampu melakukan tugas penalaran berat secara andal. Model 397 miliar jauh lebih mumpuni, tetapi membutuhkan komputasi berat, jenis yang tidak tersedia di perangkat keras konsumen.
Laboratorium tersebut menggambarkannya sebagai "keluarga model sumber terbuka yang dapat memperbaiki diri sendiri khusus untuk tugas coding agen". Kata "agen" itu sangat penting.
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.
Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) June 25, 2026
Sebagian besar AI yang berinteraksi dengan manusia bersifat percakapan: Anda mengetik, ia merespons, pertukaran berakhir. AI agen berbeda—ia mendapatkan tugas dan mengambil tindakan untuk menyelesaikannya tanpa manusia memandu setiap langkah. Dalam konteks coding, itu berarti AI yang membaca file, menjalankan tes, mengidentifikasi apa yang gagal, memperbaiki kode, dan mengulang kembali hingga selesai.
Jadi AI Agen berarti tidak ada yang perlu berada di depan keyboard hampir sepanjang waktu. Itulah intinya. Ini juga merupakan arah di mana kemajuan paling relevan secara komersial terjadi pada tahun 2026—model yang dapat berjalan tanpa pengawasan melalui alur kerja pengembangan 20 langkah lebih berharga daripada yang menulis fungsi bersih berdasarkan permintaan.
Namun, sebagian besar model bahasa besar masih dirancang dengan mempertimbangkan umpan balik manusia.
Sebagian besar agen coding AI dipasangkan dengan *harness* yang dirancang manusia—sekumpulan aturan tetap tentang bagaimana agen menstrukturkan pekerjaannya: kapan harus memanggil alat, bagaimana menangani kesalahan, bagaimana menguraikan masalah multi-langkah. Ornith, sebaliknya, "memperlakukan *scaffold* sebagai objek yang dapat dipelajari yang berevolusi bersama dengan kebijakan."
Terjemahan: alih-alih mewarisi *playbook* orang lain, ia mengembangkan *playbook*-nya sendiri.
Selama *reinforcement learning*, setiap langkah pelatihan terjadi dalam dua tahap. Model pertama membaca tugas dan mengusulkan strategi yang disempurnakan untuk mendekatinya. Kemudian menggunakan strategi itu untuk menghasilkan solusi.
Imbalan dari hasil mengalir kembali ke kedua tahap—sehingga model dioptimalkan untuk menulis strategi yang lebih baik, bukan hanya kode yang lebih baik. Lakukan itu ribuan dan jutaan kali, dan pendekatan khusus tugas muncul tanpa rekayasa manusia.
DeepReinforce juga menganggap serius *reward hacking*. Jika model dapat menulis *scaffold* pelatihannya sendiri, secara teoritis ia dapat menulis *scaffold* yang mempermainkan verifikator—menyentuh file agar terlihat seperti telah menyelesaikan tugas tanpa benar-benar melakukan pekerjaan. Tiga lapisan pertahanan memblokir ini: lingkungan dan *test suite* bersifat imutabel dan di luar jangkauan model, monitor deterministik menandai setiap upaya untuk mengakses jalur terbatas atau mengubah skrip verifikasi, dan model juri yang beku berada di atas verifikator otomatis sebagai veto.
Model unggulan 397 miliar parameter mencetak 82,4 pada SWE-bench Verified—sebuah tes di mana AI diberi *bug* nyata dari repositori GitHub sumber terbuka dan harus memperbaikinya tanpa melihat *test suite*, dinilai sebagai persentase masalah yang berhasil diselesaikannya.
Itu mengalahkan Claude Opus 4.7 dengan 80,8 dan DeepSeek-V4-Pro dengan 80,6 pada tes yang sama. Pada Terminal Bench 2.1—89 tugas yang dijalankan di dalam lingkungan terminal terkonteinerisasi mulai dari *debugging* kode asinkron hingga mengatasi kerentanan keamanan, dinilai berdasarkan tingkat penyelesaian—ia mencetak 77,5 dibandingkan 70,3 milik Claude Opus 4.7.
Mengingat kekhawatiran kontaminasi SWE-bench telah diangkat secara publik—OpenAI berpendapat awal tahun ini bahwa model-model menggelembungkan skor dengan menghafal solusi *benchmark* yang terlihat selama pelatihan—Ornith juga melaporkan angka pada SWE-bench Pro, versi yang lebih sulit menggunakan basis kode yang lebih beragam, lebih sedikit bocor, dan dinilai dengan cara yang sama. Model 397 miliar mencapai 62,2 di sana. Jauh lebih rendah, tetapi masih kompetitif dengan bidangnya, dan masih lebih baik daripada Deepseek V4 Pro.
Model 9 miliar parameter mungkin merupakan poin data yang lebih menarik. Ini mencetak 69,4 pada SWE-bench Verified—lebih tinggi dari Gemma 4-31B yang 52 dan kompetitif dengan Qwen 3.5-35B yang 70, meskipun ukurannya 3-4 kali lebih kecil.
Ornith-1.0 secara eksplisit bukan AI tujuan umum. Dokumentasi model itu sendiri menyatakan bahwa ia mungkin berkinerja buruk pada tugas-tugas di luar coding agen. Jika Anda ingin AI meringkas dokumen, membantu Anda menulis tesis doktoral, atau menyusun email, Ornith-1.0 adalah pilihan yang salah.
Ini dioptimalkan untuk kumpulan masalah yang sempit: *pipeline* pengembang di mana agen AI mengambil deskripsi tugas, beroperasi di dalam repositori kode atau sesi terminal, dan menyelesaikan pekerjaan multi-langkah tanpa campur tangan. Ini adalah alat yang dibuat untuk orang-orang yang sudah menjalankan infrastruktur agen—bukan untuk orang-orang yang mencoba memutuskan apakah AI layak digunakan.
Judul "mengalahkan Claude" itu nyata tetapi membutuhkan konteks. Seperti yang dilaporkan Decrypt, setiap laboratorium sekarang mengejar kinerja pada evaluasi coding agen, karena di situlah perbedaan kinerja yang berguna berada.
Ornith-1.0-397B memang melampaui Claude Opus 4.7 pada kedua *benchmark* coding yang berbeda, tetapi unggulan Anthropic saat ini, Claude Opus 4.8, mencetak skor lebih tinggi. Perbandingan yang berlaku adalah dalam kategori sumber terbuka, pada jumlah parameter yang sebanding, pada tugas agen khusus coding.
Bagi pengembang yang membangun *pipeline* coding yang di-*host* sendiri, infrastruktur agen, atau pekerjaan serupa yang berfokus pada coding, model kecil dan menengah yang berjalan di *edge hardware* mungkin sangat berguna, tetapi orang awam mungkin lebih baik mencari di tempat lain.