
Inilabas ng DeepReinforce, isang AI research lab na dating kilala sa CUDA-L1 at sa IterX code-agent optimization loop, ang Ornith-1.0 noong nakaraang linggo—isang pamilya ng open-source na modelo ng coding na available sa Hugging Face sa apat na laki batay sa bilang ng mga parametro: 9 bilyon, 31 bilyon, 35 bilyong pinaghalong eksperto, at isang 397 bilyong punong barko ng pinaghalong eksperto, lahat ay sa ilalim ng lisensyang MIT nang walang mga paghihigpit sa rehiyon.
Ang mga parametro ay karaniwang ang bilang ng mga dial at configuration na kayang hawakan ng isang modelo sa pagsasanay nito. Kung mas maraming parametro, mas may kakayahan ang isang modelo. Ang isang modelo na may 9 bilyong parametro ay itinuturing na maliit, sapat na upang tumakbo sa isang magandang smartphone, ngunit hindi kayang gumawa ng anumang mabigat na gawain sa pangangatwiran nang maaasahan. Ang isang modelo na may 397 bilyon ay mas may kakayahan, ngunit nangangailangan ng mabibigat na pag-compute, ang uri na hindi available sa consumer hardware.
Inilarawan ito ng lab bilang "isang pamilya ng open-source na modelo na nagpapabuti sa sarili lalo na para sa mga ahentikong gawain sa coding." Ang salitang iyon—ahentiko—ay napakahalaga.
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.
Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) June 25, 2026
Karamihan sa AI na nakikipag-ugnayan ang mga tao ay pang-usap: nagta-type ka, sumasagot ito, nagtatapos ang pagpapalitan. Iba ang ahentikong AI—nakakakuha ito ng gawain at gumagawa ng mga aksyon upang kumpletuhin ito nang walang gabay ng tao sa bawat hakbang. Sa konteksto ng coding, nangangahulugan iyon ng isang AI na nagbabasa ng mga file, nagpapatakbo ng mga pagsubok, tumutukoy kung ano ang nag-fail, nag-aayos ng code, at umuulit muli hanggang matapos ito.
Kaya ang Ahentikong AI ay nangangahulugang walang sinuman ang kailangang nasa keyboard sa halos lahat ng oras. Iyon ang buong punto. Ito rin ang direksyon kung saan nangyayari ang pinakamaraming komersyal na may kaugnayang pag-unlad sa 2026—ang mga modelo na kayang tumakbo nang walang superbisyon sa 20-step na daloy ng trabaho ng developer ay mas mahalaga kaysa sa mga nagsusulat ng malinis na function kapag hiniling.
Gayunpaman, karamihan sa malalaking modelo ng wika ay dinisenyo pa rin na may isinasaalang-alang na feedback ng tao.
Karamihan sa mga AI coding agent ay ipinapares sa isang balangkas na dinisenyo ng tao—isang nakapirming hanay ng mga patakaran kung paano binalangkas ng ahente ang trabaho nito: kailan tatawag ng tool, paano hahawakan ang isang error, paano hatiin ang isang multi-step na problema. Sa halip, "itinuturing ni Ornith ang balangkas bilang isang bagay na natutunan na nag-e-evolve kasama ang patakaran."
Salin: sa halip na mamana ang playbook ng iba, binubuo nito ang sarili nito.
Sa panahon ng reinforcement learning, ang bawat hakbang sa pagsasanay ay nangyayari sa dalawang yugto. Una, binabasa ng modelo ang gawain at nagmumungkahi ng pinahusay na estratehiya para sa paglapit dito. Pagkatapos, ginagamit nito ang estratehiyang iyon upang bumuo ng solusyon.
Ang gantimpala mula sa kinalabasan ay bumabalik sa parehong yugto—kaya ang modelo ay na-optimize para sa pagsusulat ng mas mahusay na mga estratehiya, hindi lamang mas mahusay na code. Gawin iyon ng libu-libo at milyong beses, at lumilitaw ang mga diskarte na partikular sa gawain nang hindi ginagawa ng tao.
Sineseryoso rin ng DeepReinforce ang reward hacking. Kung kayang isulat ng modelo ang sarili nitong balangkas ng pagsasanay, maaari itong theoretically magsulat ng balangkas na niloloko ang verifier—paghawak sa isang file upang magmukhang nakumpleto nito ang isang gawain nang hindi talaga ginagawa ang trabaho. Tatlong layer ng depensa ang humaharang dito: ang kapaligiran at test suite ay hindi nababago at hindi abot ng modelo, isang deterministic na monitor ang nagtatak ng anumang pagtatangka na i-access ang mga pinaghihigpitang path o baguhin ang mga script ng pag-verify, at isang nagyeyelong judge model ang nakaupo sa ibabaw ng automated verifier bilang isang beto.
Ang punong barkong modelo na may 397 bilyong parametro ay nakakuha ng 82.4 sa SWE-bench Verified—isang pagsubok kung saan binibigyan ang isang AI ng tunay na bug mula sa isang open-source na repositoryo ng GitHub at dapat itong ayusin nang hindi nakikita ang test suite, na binibigyang marka bilang porsyento ng mga isyung matagumpay nitong nalulutas.
Mas mahusay iyan kaysa sa 80.8 ng Claude Opus 4.7 at 80.6 ng DeepSeek-V4-Pro sa parehong pagsubok. Sa Terminal Bench 2.1—89 na gawain na pinapatakbo sa loob ng naka-container na kapaligiran ng terminal mula sa pag-debug ng async code hanggang sa paglutas ng mga kahinaan sa seguridad, na binibigyang marka sa rate ng pagkumpleto—nakakuha ito ng 77.5 laban sa 70.3 ng Claude Opus 4.7.
Dahil ang mga alalahanin sa kontaminasyon ng SWE-bench ay pampublikong naihaharap—iginigiit ng OpenAI mas maaga ngayong taon na pinapataas ng mga modelo ang mga score sa pamamagitan ng pagsasaulo ng mga solusyon sa benchmark na nakita sa panahon ng pagsasanay—nag-uulat din si Ornith ng mga numero sa SWE-bench Pro, isang mas mahirap na bersyon gamit ang mas magkakaibang, mas kaunting na-leak na codebase na binibigyang marka sa parehong paraan. Ang 397 bilyong modelo ay nakakuha ng 62.2 doon. Kapansin-pansing mas mababa, ngunit nananatiling mapagkumpitensya sa larangan, at mas mahusay pa rin kaysa sa Deepseek V4 Pro.
Ang modelo na may 9 bilyong parametro ay maaaring ang mas kawili-wiling data point. Nakakuha ito ng 69.4 sa SWE-bench Verified—mas mataas kaysa sa 52 ng Gemma 4-31B at mapagkumpitensya sa 70 ng Qwen 3.5-35B, sa kabila ng pagiging 3-4 na beses na mas maliit.
Ang Ornith-1.0 ay hayagang hindi isang pangkalahatang layunin ng AI. Sinasabi ng sariling dokumentasyon ng modelo na maaari itong maging mababa ang performance sa mga gawain sa labas ng ahentikong coding. Kung gusto mong buudin ng AI ang isang dokumento, tulungan kang isulat ang iyong doctoral thesis, o mag-draft ng email, ang Ornith-1.0 ay maling pagpili.
Ito ay na-optimize para sa isang makitid na hanay ng problema: mga pipeline ng developer kung saan ang isang AI agent ay kumukuha ng deskripsyon ng gawain, nagpapatakbo sa loob ng isang code repositoryo o terminal session, at nakakakumpleto ng multi-step na trabaho nang walang interbensyon. Ito ay isang tool na ginawa para sa mga taong nagpapatakbo na ng imprastraktura ng ahente—hindi para sa mga taong sumusubok magpasya kung sulit bang gamitin ang AI.
Ang headline na "tinalo si Claude" ay totoo ngunit nangangailangan ng konteksto. Tulad ng iniulat ng Decrypt, bawat lab ay hinahabol na ngayon ang performance sa mga ahentikong coding eval, dahil doon nakatira ang mga kapaki-pakinabang na pagkakaiba sa performance.
Ang Ornith-1.0-397B ay talagang nalampasan ang Claude Opus 4.7 sa parehong iba't ibang coding benchmark, ngunit ang kasalukuyang punong barko ng Anthropic, ang Claude Opus 4.8, ay mas mataas ang score. Ang paghahambing na nananatili ay nasa loob ng open-source na kategorya, sa maihahambing na bilang ng parametro, sa mga gawain ng ahente na partikular sa coding.
Para sa mga developer na bumubuo ng self-hosted na pipeline ng coding, imprastraktura ng ahente, o katulad na gawaing nakatuon sa coding, ang maliliit at medium na modelo na tumatakbo sa edge hardware ay maaaring tunay na kapaki-pakinabang, ngunit ang ordinaryong tao ay maaaring mas makakahanap ng mas angkop sa ibang lugar.