
DeepReinforce, un laboratorio de investigación de IA anteriormente conocido por CUDA-L1 y el bucle de optimización de agentes de código IterX, lanzó Ornith-1.0 a finales de la semana pasada, una familia de modelos de codificación de código abierto disponibles en Hugging Face en cuatro tamaños basados en el número de parámetros: 9 mil millones, 31 mil millones, 35 mil millones con mezcla de expertos, y un modelo insignia de 397 mil millones con mezcla de expertos, todos bajo licencia MIT y sin restricciones regionales.
Los parámetros son básicamente el número de ajustes y configuraciones que un modelo puede manejar durante su entrenamiento. Cuantos más parámetros, más capaz es un modelo. Un modelo de 9 mil millones de parámetros se considera pequeño, lo suficientemente bueno para ejecutarse en un buen smartphone, pero no capaz de realizar tareas de razonamiento pesadas de forma fiable. Un modelo de 397 mil millones es mucho más capaz, pero requiere una computación pesada, del tipo que no está disponible en hardware de consumo.
El laboratorio lo describe como "una familia de modelos de código abierto que se auto-mejoran, especialmente para tareas de codificación agénticas". Esa palabra —agéntica— tiene un gran significado.
¡Aloha! 🌺 Conoce Ornith-1.0, una familia de LLMs de código abierto especializados en codificación agéntica.
Ornith-1.0 abarca todos los tamaños de parámetros, incluyendo 9B Dense, 31B Dense, 35B MoE, y 397B MoE. Logra un rendimiento de vanguardia entre los modelos de código abierto de tamaño comparable en… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) 25 de junio de 2026
La mayoría de la IA con la que interactúa la gente es conversacional: tú escribes, ella responde, el intercambio termina. La IA agéntica es diferente: recibe una tarea y toma acciones para completarla sin que un humano guíe cada paso. En un contexto de codificación, eso significa una IA que lee archivos, ejecuta pruebas, identifica lo que falló, corrige el código y repite el ciclo hasta que está hecho.
Así que la IA agéntica significa que no es necesario que haya nadie frente al teclado la mayor parte del tiempo. Ese es el objetivo principal. Esta es también la dirección en la que se está produciendo el progreso más comercialmente relevante en 2026: los modelos que pueden ejecutar flujos de trabajo de desarrollo de 20 pasos sin supervisión valen más que los que escriben una función limpia a petición.
Sin embargo, la mayoría de los grandes modelos de lenguaje todavía están diseñados teniendo en cuenta la retroalimentación humana.
La mayoría de los agentes de codificación de IA se combinan con un arnés diseñado por humanos, un conjunto fijo de reglas sobre cómo el agente estructura su trabajo: cuándo llamar a una herramienta, cómo manejar un error, cómo descomponer un problema de varios pasos. Ornith, en cambio, "trata el andamiaje como un objeto aprendible que coevoluciona con la política".
Traducción: en lugar de heredar el manual de otro, desarrolla el suyo propio.
Durante el aprendizaje por refuerzo, cada paso de entrenamiento ocurre en dos etapas. El modelo primero lee la tarea y propone una estrategia refinada para abordarla. Luego, usa esa estrategia para generar una solución.
La recompensa del resultado fluye de regreso a ambas etapas, por lo que el modelo está optimizado para escribir mejores estrategias, no solo mejor código. Si esto se hace miles y millones de veces, surgen enfoques específicos para cada tarea sin que un humano los diseñe.
DeepReinforce también se toma en serio el 'reward hacking'. Si el modelo puede escribir su propio andamiaje de entrenamiento, teóricamente podría escribir un andamiaje que engañe al verificador, tocando un archivo para que parezca que completó una tarea sin realmente hacer el trabajo. Tres capas de defensa bloquean esto: el entorno y el conjunto de pruebas son inmutables y están fuera del alcance del modelo, un monitor determinista marca cualquier intento de acceder a rutas restringidas o alterar scripts de verificación, y un modelo de juez congelado se sitúa sobre el verificador automatizado como un veto.
El modelo insignia de 397 mil millones de parámetros obtiene 82.4 en SWE-bench Verified, una prueba donde a una IA se le da un error real de un repositorio de GitHub de código abierto y debe solucionarlo sin ver el conjunto de pruebas, puntuado como el porcentaje de problemas que resuelve con éxito.
Esto supera el 80.8 de Claude Opus 4.7 y el 80.6 de DeepSeek-V4-Pro en la misma prueba. En Terminal Bench 2.1 —89 tareas ejecutadas dentro de entornos de terminales en contenedores que van desde la depuración de código asíncrono hasta la resolución de vulnerabilidades de seguridad, puntuadas por la tasa de finalización—, Ornith obtiene un 77.5 frente al 70.3 de Claude Opus 4.7.
Dado que las preocupaciones sobre la contaminación de SWE-bench se han planteado públicamente —OpenAI argumentó a principios de este año que los modelos estaban inflando las puntuaciones al memorizar soluciones de referencia vistas durante el entrenamiento—, Ornith también informa cifras sobre SWE-bench Pro, una versión más difícil que utiliza bases de código más diversas y menos filtradas puntuadas de la misma manera. El modelo de 397 mil millones de parámetros se sitúa en 62.2 allí. Significativamente más bajo, pero aún competitivo con el campo, y todavía mejor que Deepseek V4 Pro.
El modelo de 9 mil millones de parámetros podría ser el dato más interesante. Obtiene 69.4 en SWE-bench Verified, más alto que el 52 de Gemma 4-31B y competitivo con el 70 de Qwen 3.5-35B, a pesar de ser 3 o 4 veces más pequeño.
Ornith-1.0 no es explícitamente una IA de propósito general. La propia documentación del modelo dice que puede tener un rendimiento inferior en tareas que no sean de codificación agéntica. Si desea que la IA resuma un documento, le ayude a escribir su tesis doctoral o redacte un correo electrónico, Ornith-1.0 no es la opción correcta.
Está optimizado para un conjunto estrecho de problemas: pipelines de desarrolladores donde un agente de IA toma una descripción de tarea, opera dentro de un repositorio de código o sesión de terminal, y completa un trabajo de varios pasos sin intervención. Esta es una herramienta construida para personas que ya tienen infraestructura de agentes, no para personas que intentan decidir si vale la pena usar la IA.
El titular "supera a Claude" es real pero requiere contexto. Como informó Decrypt, todos los laboratorios están persiguiendo ahora el rendimiento en las evaluaciones de codificación agéntica, porque ahí es donde residen las diferencias de rendimiento útiles.
Ornith-1.0-397B sí supera a Claude Opus 4.7 en dos benchmarks de codificación diferentes, pero el actual modelo insignia de Anthropic, Claude Opus 4.8, obtiene una puntuación más alta. La comparación que se mantiene es dentro de la categoría de código abierto, con un número de parámetros comparable, en tareas de agente específicas de codificación.
Para los desarrolladores que construyen pipelines de codificación autoalojados, infraestructura agéntica o trabajos similares centrados en la codificación, los modelos pequeños y medianos que se ejecutan en hardware de borde pueden ser genuinamente útiles, pero el usuario promedio puede estar mejor buscando en otro lugar.