
DeepReinforce, un laborator de cercetare AI cunoscut anterior pentru CUDA-L1 și bucla de optimizare a agentului de cod IterX, a lansat la sfârșitul săptămânii trecute Ornith-1.0 – o familie de modele de codare open-source disponibile pe Hugging Face în patru dimensiuni bazate pe numărul de parametri: 9 miliarde, 31 miliarde, 35 miliarde de experți în amestec, și un model emblematic de 397 miliarde de experți în amestec, toate sub licență MIT, fără restricții regionale.
Parametrii reprezintă practic numărul de reglaje și configurații pe care un model le poate gestiona în timpul antrenamentului său. Cu cât sunt mai mulți parametri, cu atât un model este mai capabil. Un model cu 9 miliarde de parametri este considerat mic, suficient de bun pentru a rula pe un smartphone decent, dar incapabil să îndeplinească sarcini grele de raționament în mod fiabil. Un model de 397 miliarde este mult mai capabil, dar necesită o putere de calcul mare, genul care nu este disponibil pe hardware-ul de consum.
Laboratorul îl descrie ca fiind "o familie de modele open-source auto-îmbunătățite, special pentru sarcini de codare agentică." Acest cuvânt – agentică – are o semnificație profundă.
Aloha! 🌺 Faceți cunoștință cu Ornith-1.0, o familie de LLM-uri open-source specializate pentru codare agentică.
Ornith-1.0 acoperă toate dimensiunile de parametri, inclusiv 9B Dens, 31B Dens, 35B MoE și 397B MoE. Acesta atinge performanțe de ultimă generație printre modelele open-source de dimensiuni comparabile pe… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) 25 iunie 2026
Majoritatea inteligenței artificiale cu care interacționează oamenii este conversațională: tu tastezi, ea răspunde, iar schimbul se încheie. AI-ul agentic este diferit – primește o sarcină și întreprinde acțiuni pentru a o finaliza fără ca un om să ghideze fiecare pas. Într-un context de codare, asta înseamnă un AI care citește fișiere, rulează teste, identifică ce a eșuat, repară codul și reia ciclul până la finalizare.
Așadar, AI-ul agentic înseamnă că nimeni nu trebuie să stea la tastatură majoritatea timpului. Acesta este întregul scop. Aceasta este, de asemenea, direcția în care se înregistrează cele mai relevante progrese comerciale în 2026 – modelele care pot rula nesupravegheate prin fluxuri de lucru de dezvoltare în 20 de pași valorează mai mult decât cele care scriu o funcție curată la cerere.
Cu toate acestea, majoritatea modelelor lingvistice mari sunt încă proiectate având în vedere feedback-ul uman.
Majoritatea agenților de codare AI sunt asociați cu un cadru proiectat de om – un set fix de reguli privind modul în care agentul își structurează munca: când să apeleze un instrument, cum să gestioneze o eroare, cum să descompună o problemă în mai mulți pași. Ornith, în schimb, "tratează schela ca un obiect învățabil care co-evoluează cu politica."
Traducere: în loc să moștenească planul altcuiva, își dezvoltă propriul plan.
În timpul învățării prin consolidare, fiecare pas de antrenament are loc în două etape. Modelul citește mai întâi sarcina și propune o strategie rafinată pentru abordarea acesteia. Apoi folosește acea strategie pentru a genera o soluție.
Recompensa rezultată se întoarce la ambele etape – astfel, modelul este optimizat pentru a scrie strategii mai bune, nu doar cod mai bun. Făcând acest lucru de mii și milioane de ori, abordările specifice sarcinilor apar fără intervenția umană pentru a le proiecta.
DeepReinforce ia în serios și problema "reward hacking"-ului (manipularea recompenselor). Dacă modelul își poate scrie propriul cadru de antrenament, poate teoretic să scrie un cadru care să înșele verificatorul – atingând un fișier pentru a simula finalizarea unei sarcini fără a o executa de fapt. Trei straturi de apărare blochează acest lucru: mediul și suita de teste sunt imutabile și în afara controlului modelului, un monitor determinist semnalează orice tentativă de accesare a căilor restricționate sau de alterare a scripturilor de verificare, iar un model judecător "înghețat" stă deasupra verificatorului automat ca o formă de veto.
Modelul emblematic cu 397 de miliarde de parametri obține un scor de 82.4 la SWE-bench Verified – un test în care un AI primește un bug real dintr-un depozit GitHub open-source și trebuie să-l repare fără a vedea suita de teste, scorat ca procentaj de probleme rezolvate cu succes.
Acest scor îl depășește pe cel al Claude Opus 4.7 (80.8) și pe cel al DeepSeek-V4-Pro (80.6) la același test. La Terminal Bench 2.1 – 89 de sarcini rulate în medii de terminal containerizate, variind de la depanarea codului asincron la rezolvarea vulnerabilităților de securitate, scorate după rata de finalizare – obține 77.5 față de 70.3 al Claude Opus 4.7.
Având în vedere că au fost exprimate public îngrijorări legate de contaminarea SWE-bench – OpenAI a susținut la începutul acestui an că modelele își umflau scorurile memorând soluții de benchmark văzute în timpul antrenamentului – Ornith raportează, de asemenea, cifre pentru SWE-bench Pro, o versiune mai dificilă care utilizează baze de cod mai diverse și mai puțin „scurse”, scorată în același mod. Modelul de 397 de miliarde de parametri obține un scor de 62.2 acolo. Un scor semnificativ mai mic, dar încă competitiv cu restul modelelor și încă mai bun decât Deepseek V4 Pro.
Modelul cu 9 miliarde de parametri ar putea fi punctul de date cel mai interesant. Acesta obține 69.4 la SWE-bench Verified – mai mult decât Gemma 4-31B (52) și competitiv cu Qwen 3.5-35B (70), deși este de 3-4 ori mai mic.
Ornith-1.0 nu este în mod explicit un AI de uz general. Propria documentație a modelului afirmă că poate subperforma în sarcini în afara codării agentice. Dacă doriți ca AI-ul să rezume un document, să vă ajute să scrieți teza de doctorat sau să redactați un e-mail, Ornith-1.0 este alegerea greșită.
Este optimizat pentru un set restrâns de probleme: fluxuri de lucru de dezvoltare în care un agent AI preia o descriere a sarcinii, operează într-un depozit de cod sau sesiune de terminal și finalizează munca în mai mulți pași fără intervenție. Acesta este un instrument construit pentru persoanele care utilizează deja infrastructura de agenți – nu pentru persoanele care încearcă să decidă dacă merită să folosească AI.
Titlul "depășește Claude" este real, dar necesită context. După cum a raportat Decrypt, fiecare laborator urmărește acum performanța la evaluările de codare agentică, deoarece acolo se găsesc diferențele utile de performanță.
Ornith-1.0-397B depășește într-adevăr Claude Opus 4.7 la ambele benchmark-uri de codare diferite, dar modelul emblematic actual al Anthropic, Claude Opus 4.8, obține scoruri mai mari. Comparația validă este în cadrul categoriei open-source, la număr de parametri comparabil, pentru sarcini de agent specifice codării.
Pentru dezvoltatorii care construiesc pipeline-uri de codare auto-găzduite, infrastructură agentică sau lucrări similare axate pe codare, modelele mici și medii care rulează pe hardware de tip edge pot fi cu adevărat utile, dar persoana obișnuită ar putea fi mai bine să caute în altă parte.