Agregare de etichete de știri cripto și știri tematice

ornith-open-source-coding-model-built-for-agents

Ornith Este Modelul de Codare Open-Source Construit pentru Agenți, Nu pentru Oameni

Un nou model creat de DeepReinforce este destinat dezvoltatorilor care doresc o inteligență artificială ce finalizează sarcina, nu doar completează automat următoarea linie.

2026-06-29 Sursă:decrypt.co

AI agentic

Pe scurt

DeepReinforce a lansat Ornith-1.0 pe 25 iunie sub licență MIT, conceput special pentru agenții de codare AI care lucrează în medii reale de terminal și depozite.
Varianta de 9 miliarde de parametri a obținut un scor de 69.4 la SWE-bench Verified, depășind Gemma 4-31B de la Google (52.0).
Fișa modelului Ornith avertizează că modelele pot subperforma în sarcini non-codare – sunt concepute pentru fluxuri de lucru de dezvoltare, nu pentru conversații AI de uz general.

DeepReinforce, un laborator de cercetare AI cunoscut anterior pentru CUDA-L1 și bucla de optimizare a agentului de cod IterX, a lansat la sfârșitul săptămânii trecute Ornith-1.0 – o familie de modele de codare open-source disponibile pe Hugging Face în patru dimensiuni bazate pe numărul de parametri: 9 miliarde, 31 miliarde, 35 miliarde de experți în amestec, și un model emblematic de 397 miliarde de experți în amestec, toate sub licență MIT, fără restricții regionale.

Parametrii reprezintă practic numărul de reglaje și configurații pe care un model le poate gestiona în timpul antrenamentului său. Cu cât sunt mai mulți parametri, cu atât un model este mai capabil. Un model cu 9 miliarde de parametri este considerat mic, suficient de bun pentru a rula pe un smartphone decent, dar incapabil să îndeplinească sarcini grele de raționament în mod fiabil. Un model de 397 miliarde este mult mai capabil, dar necesită o putere de calcul mare, genul care nu este disponibil pe hardware-ul de consum.

Laboratorul îl descrie ca fiind "o familie de modele open-source auto-îmbunătățite, special pentru sarcini de codare agentică." Acest cuvânt – agentică – are o semnificație profundă.

Aloha! 🌺 Faceți cunoștință cu Ornith-1.0, o familie de LLM-uri open-source specializate pentru codare agentică.

Ornith-1.0 acoperă toate dimensiunile de parametri, inclusiv 9B Dens, 31B Dens, 35B MoE și 397B MoE. Acesta atinge performanțe de ultimă generație printre modelele open-source de dimensiuni comparabile pe… pic.twitter.com/7g1rmacLps

— Ornith (@ornith_) 25 iunie 2026

Majoritatea inteligenței artificiale cu care interacționează oamenii este conversațională: tu tastezi, ea răspunde, iar schimbul se încheie. AI-ul agentic este diferit – primește o sarcină și întreprinde acțiuni pentru a o finaliza fără ca un om să ghideze fiecare pas. Într-un context de codare, asta înseamnă un AI care citește fișiere, rulează teste, identifică ce a eșuat, repară codul și reia ciclul până la finalizare.

Așadar, AI-ul agentic înseamnă că nimeni nu trebuie să stea la tastatură majoritatea timpului. Acesta este întregul scop. Aceasta este, de asemenea, direcția în care se înregistrează cele mai relevante progrese comerciale în 2026 – modelele care pot rula nesupravegheate prin fluxuri de lucru de dezvoltare în 20 de pași valorează mai mult decât cele care scriu o funcție curată la cerere.

Cu toate acestea, majoritatea modelelor lingvistice mari sunt încă proiectate având în vedere feedback-ul uman.

Cum funcționează creierul lui Ornith

Majoritatea agenților de codare AI sunt asociați cu un cadru proiectat de om – un set fix de reguli privind modul în care agentul își structurează munca: când să apeleze un instrument, cum să gestioneze o eroare, cum să descompună o problemă în mai mulți pași. Ornith, în schimb, "tratează schela ca un obiect învățabil care co-evoluează cu politica."

Traducere: în loc să moștenească planul altcuiva, își dezvoltă propriul plan.

În timpul învățării prin consolidare, fiecare pas de antrenament are loc în două etape. Modelul citește mai întâi sarcina și propune o strategie rafinată pentru abordarea acesteia. Apoi folosește acea strategie pentru a genera o soluție.

Recompensa rezultată se întoarce la ambele etape – astfel, modelul este optimizat pentru a scrie strategii mai bune, nu doar cod mai bun. Făcând acest lucru de mii și milioane de ori, abordările specifice sarcinilor apar fără intervenția umană pentru a le proiecta.

DeepReinforce ia în serios și problema "reward hacking"-ului (manipularea recompenselor). Dacă modelul își poate scrie propriul cadru de antrenament, poate teoretic să scrie un cadru care să înșele verificatorul – atingând un fișier pentru a simula finalizarea unei sarcini fără a o executa de fapt. Trei straturi de apărare blochează acest lucru: mediul și suita de teste sunt imutabile și în afara controlului modelului, un monitor determinist semnalează orice tentativă de accesare a căilor restricționate sau de alterare a scripturilor de verificare, iar un model judecător "înghețat" stă deasupra verificatorului automat ca o formă de veto.

Cifrele

Modelul emblematic cu 397 de miliarde de parametri obține un scor de 82.4 la SWE-bench Verified – un test în care un AI primește un bug real dintr-un depozit GitHub open-source și trebuie să-l repare fără a vedea suita de teste, scorat ca procentaj de probleme rezolvate cu succes.

Acest scor îl depășește pe cel al Claude Opus 4.7 (80.8) și pe cel al DeepSeek-V4-Pro (80.6) la același test. La Terminal Bench 2.1 – 89 de sarcini rulate în medii de terminal containerizate, variind de la depanarea codului asincron la rezolvarea vulnerabilităților de securitate, scorate după rata de finalizare – obține 77.5 față de 70.3 al Claude Opus 4.7.

Având în vedere că au fost exprimate public îngrijorări legate de contaminarea SWE-bench – OpenAI a susținut la începutul acestui an că modelele își umflau scorurile memorând soluții de benchmark văzute în timpul antrenamentului – Ornith raportează, de asemenea, cifre pentru SWE-bench Pro, o versiune mai dificilă care utilizează baze de cod mai diverse și mai puțin „scurse”, scorată în același mod. Modelul de 397 de miliarde de parametri obține un scor de 62.2 acolo. Un scor semnificativ mai mic, dar încă competitiv cu restul modelelor și încă mai bun decât Deepseek V4 Pro.

Modelul cu 9 miliarde de parametri ar putea fi punctul de date cel mai interesant. Acesta obține 69.4 la SWE-bench Verified – mai mult decât Gemma 4-31B (52) și competitiv cu Qwen 3.5-35B (70), deși este de 3-4 ori mai mic.

Pentru cine este și pentru cine nu este

Ornith-1.0 nu este în mod explicit un AI de uz general. Propria documentație a modelului afirmă că poate subperforma în sarcini în afara codării agentice. Dacă doriți ca AI-ul să rezume un document, să vă ajute să scrieți teza de doctorat sau să redactați un e-mail, Ornith-1.0 este alegerea greșită.

Este optimizat pentru un set restrâns de probleme: fluxuri de lucru de dezvoltare în care un agent AI preia o descriere a sarcinii, operează într-un depozit de cod sau sesiune de terminal și finalizează munca în mai mulți pași fără intervenție. Acesta este un instrument construit pentru persoanele care utilizează deja infrastructura de agenți – nu pentru persoanele care încearcă să decidă dacă merită să folosească AI.

Titlul "depășește Claude" este real, dar necesită context. După cum a raportat Decrypt, fiecare laborator urmărește acum performanța la evaluările de codare agentică, deoarece acolo se găsesc diferențele utile de performanță.

Ornith-1.0-397B depășește într-adevăr Claude Opus 4.7 la ambele benchmark-uri de codare diferite, dar modelul emblematic actual al Anthropic, Claude Opus 4.8, obține scoruri mai mari. Comparația validă este în cadrul categoriei open-source, la număr de parametri comparabil, pentru sarcini de agent specifice codării.

Pentru dezvoltatorii care construiesc pipeline-uri de codare auto-găzduite, infrastructură agentică sau lucrări similare axate pe codare, modelele mici și medii care rulează pe hardware de tip edge pot fi cu adevărat utile, dar persoana obișnuită ar putea fi mai bine să caute în altă parte.

Lecturi populare

PAC-urile susținute de Ripple alimentează cheltuieli electorale în cripto, un record de 189 de milioane de dolari

Acum 12 ore

SEC pune sub semnul întrebării cadrul inedit al ETF-urilor pe măsură ce aprobările fondurilor de predicție stagnează

Acum 14 ore

Kalshi primește un ordin de restricție de 14 zile în Michigan, blocând piețele de predicție sportivă în stat

Acum 14 ore

Alte articole

Acțiunile Circle scad cu 16% după dezvăluirea Open USD, analiștii spun că temerile sunt „exagerate”

Acum 4 ore

SEC deschide revizuirea reglementărilor ETF în urma avântului fondurilor cripto și a ascensiunii piețelor de predicții

Acum 6 ore