
DeepReinforce, un laboratoire de recherche en IA auparavant connu pour CUDA-L1 et la boucle d'optimisation d'agent de code IterX, a lancé Ornith-1.0 à la fin de la semaine dernière — une famille de modèles de codage open-source disponibles sur Hugging Face en quatre tailles basées sur le nombre de paramètres : 9 milliards, 31 milliards, 35 milliards de mélange d'experts, et un fleuron de 397 milliards de mélange d'experts, tous sous licence MIT sans restrictions régionales.
Les paramètres sont essentiellement le nombre de réglages et de configurations qu'un modèle peut gérer lors de son entraînement. Plus il y a de paramètres, plus un modèle est performant. Un modèle de 9 milliards de paramètres est considéré comme petit, suffisant pour fonctionner sur un bon smartphone, mais incapable d'effectuer de manière fiable des tâches de raisonnement complexes. Un modèle de 397 milliards est bien plus performant, mais nécessite une puissance de calcul importante, le genre qui n'est pas disponible sur le matériel grand public.
Le laboratoire le décrit comme "une famille de modèles open-source auto-améliorants spécialement conçus pour les tâches de codage agentiques." Ce mot – agentique – a une grande importance.
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.
Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) June 25, 2026
La plupart des IA avec lesquelles les gens interagissent sont conversationnelles : vous tapez, elle répond, l'échange se termine. L'IA agentique est différente – elle reçoit une tâche et prend des mesures pour la réaliser sans qu'un humain ne guide chaque étape. Dans un contexte de codage, cela signifie une IA qui lit des fichiers, exécute des tests, identifie ce qui a échoué, corrige le code et boucle à nouveau jusqu'à ce que la tâche soit terminée.
Ainsi, l'IA agentique signifie que personne n'a besoin d'être au clavier la plupart du temps. C'est tout l'intérêt. C'est également la direction où les progrès les plus commercialement pertinents se produisent en 2026 — les modèles capables de fonctionner sans supervision à travers des flux de travail de développement en 20 étapes valent plus que ceux qui écrivent une fonction propre sur demande.
Cependant, la plupart des grands modèles linguistiques sont toujours conçus en tenant compte du retour humain.
La plupart des agents de codage IA sont associés à un cadre conçu par l'homme — un ensemble de règles fixes sur la manière dont l'agent structure son travail : quand appeler un outil, comment gérer une erreur, comment décomposer un problème en plusieurs étapes. Ornith, au lieu de cela, "traite l'échafaudage comme un objet apprenable qui co-évolue avec la politique."
Traduction : au lieu d'hériter du manuel d'un autre, il développe le sien.
Pendant l'apprentissage par renforcement, chaque étape de l'entraînement se déroule en deux phases. Le modèle lit d'abord la tâche et propose une stratégie raffinée pour l'aborder. Ensuite, il utilise cette stratégie pour générer une solution.
La récompense du résultat est réinjectée dans les deux étapes — le modèle est donc optimisé pour écrire de meilleures stratégies, et pas seulement un meilleur code. Faites cela des milliers et des millions de fois, et des approches spécifiques aux tâches émergent sans qu'un humain n'ait à les concevoir.
DeepReinforce prend également au sérieux la manipulation des récompenses. Si le modèle peut écrire son propre échafaudage d'entraînement, il peut théoriquement écrire un échafaudage qui trompe le vérificateur — en touchant un fichier pour faire croire qu'une tâche a été accomplie sans vraiment faire le travail. Trois couches de défense bloquent cela : l'environnement et la suite de tests sont immuables et hors de portée du modèle, un moniteur déterministe signale toute tentative d'accès à des chemins restreints ou de modification des scripts de vérification, et un modèle de juge "gelé" se superpose au vérificateur automatisé comme un droit de veto.
Le modèle phare de 397 milliards de paramètres affiche 82,4 sur SWE-bench Verified — un test où une IA reçoit un vrai bug d'un dépôt GitHub open-source et doit le corriger sans voir la suite de tests, le score étant le pourcentage de problèmes résolus avec succès.
Cela surpasse le score de 80,8 de Claude Opus 4.7 et de 80,6 de DeepSeek-V4-Pro sur le même test. Sur Terminal Bench 2.1 — 89 tâches exécutées dans des environnements de terminal conteneurisés allant du débogage de code asynchrone à la résolution de vulnérabilités de sécurité, notées en fonction du taux d'achèvement — il affiche 77,5 contre 70,3 pour Claude Opus 4.7.
Étant donné que des préoccupations de contamination de SWE-bench ont été soulevées publiquement — OpenAI a soutenu plus tôt cette année que les modèles gonflaient les scores en mémorisant les solutions de benchmark vues pendant l'entraînement — Ornith rapporte également des chiffres sur SWE-bench Pro, une version plus difficile utilisant des bases de code plus diverses et moins "fuitées" (moins exposées), notée de la même manière. Le modèle de 397 milliards se situe à 62,2 ici. Un score significativement plus bas, mais toujours compétitif avec le reste du secteur, et toujours meilleur que Deepseek V4 Pro.
Le modèle de 9 milliards de paramètres pourrait être le point de données le plus intéressant. Il affiche 69,4 sur SWE-bench Verified — plus élevé que les 52 de Gemma 4-31B et compétitif avec les 70 de Qwen 3.5-35B, bien qu'il soit 3 à 4 fois plus petit.
Ornith-1.0 n'est explicitement pas une IA à usage général. La propre documentation du modèle indique qu'il peut sous-performer sur des tâches en dehors du codage agentique. Si vous voulez qu'une IA résume un document, vous aide à rédiger votre thèse de doctorat ou à écrire un e-mail, Ornith-1.0 n'est pas le bon choix.
Il est optimisé pour un ensemble de problèmes restreint : les pipelines de développeurs où un agent IA prend une description de tâche, opère dans un dépôt de code ou une session de terminal, et exécute un travail en plusieurs étapes sans intervention. C'est un outil qui a été conçu pour les personnes qui gèrent déjà une infrastructure d'agents — et non pour celles qui tentent de décider si l'IA vaut la peine d'être utilisée.
Le titre "bat Claude" est réel mais nécessite un contexte. Comme Decrypt l'a rapporté, tous les laboratoires cherchent maintenant à améliorer les performances sur les évaluations de codage agentique, car c'est là que se trouvent les différences de performances utiles.
Ornith-1.0-397B surpasse effectivement Claude Opus 4.7 sur les deux différents benchmarks de codage, mais le fleuron actuel d'Anthropic, Claude Opus 4.8, obtient un score plus élevé. La comparaison qui tient est celle au sein de la catégorie open-source, avec des nombres de paramètres comparables, sur des tâches d'agents spécifiques au codage.
Pour les développeurs qui créent des pipelines de codage auto-hébergés, des infrastructures agentiques ou des travaux similaires axés sur le codage, les modèles petits et moyens fonctionnant sur du matériel périphérique peuvent être réellement utiles, mais l'utilisateur lambda ferait peut-être mieux de chercher ailleurs.