
A DeepReinforce, um laboratório de pesquisa de IA anteriormente conhecido por CUDA-L1 e o loop de otimização de agente de código IterX, lançou o Ornith-1.0 no final da semana passada — uma família de modelos de codificação de código aberto disponíveis no Hugging Face em quatro tamanhos com base no número de parâmetros: 9 bilhões, 31 bilhões, 35 bilhões de mistura de especialistas, e um carro-chefe de 397 bilhões de mistura de especialistas, todos sob licença MIT sem restrições regionais.
Parâmetros são basicamente o número de ajustes e configurações que um modelo pode gerenciar em seu treinamento. Quanto mais parâmetros, mais capaz é um modelo. Um modelo de 9 bilhões de parâmetros é considerado pequeno, bom o suficiente para rodar em um bom smartphone, mas não capaz de realizar qualquer tarefa de raciocínio pesado de forma confiável. Um modelo de 397 bilhões é muito mais capaz, mas requer computação pesada, o tipo que não está disponível em hardware de consumidor.
O laboratório o descreve como "uma família de modelos de código aberto autoaprimoráveis, especialmente para tarefas de codificação agêntica". Essa palavra — agêntica — está fazendo um grande trabalho.
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.
Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) June 25, 2026
A maioria das IAs com as quais as pessoas interagem é conversacional: você digita, ela responde, a troca termina. A IA agêntica é diferente — ela recebe uma tarefa e executa ações para completá-la sem que um humano guie cada passo. Em um contexto de codificação, isso significa uma IA que lê arquivos, executa testes, identifica o que falhou, corrige o código e repete o processo até que esteja pronto.
Então, IA agêntica significa que ninguém precisa estar no teclado na maior parte do tempo. Esse é o ponto principal. Esta é também a direção onde o progresso comercialmente mais relevante está acontecendo em 2026 — os modelos que podem executar fluxos de trabalho de desenvolvimento de 20 etapas sem supervisão valem mais do que aqueles que escrevem uma função limpa sob demanda.
No entanto, a maioria dos grandes modelos de linguagem ainda são projetados com o feedback humano em mente.
A maioria dos agentes de codificação de IA são pareados com uma estrutura projetada por humanos — um conjunto fixo de regras para como o agente estrutura seu trabalho: quando chamar uma ferramenta, como lidar com um erro, como decompor um problema multi-passos. O Ornith, em vez disso, "trata o andaime como um objeto aprendível que coevolui com a política."
Tradução: em vez de herdar o plano de jogo de outra pessoa, ele desenvolve o seu próprio.
Durante o aprendizado por reforço, cada etapa de treinamento ocorre em duas fases. O modelo primeiro lê a tarefa e propõe uma estratégia refinada para abordá-la. Em seguida, ele usa essa estratégia para gerar uma solução.
A recompensa do resultado retorna para ambas as etapas — então o modelo é otimizado para escrever melhores estratégias, não apenas melhor código. Faça isso milhares e milhões de vezes, e abordagens específicas para tarefas emergem sem a engenharia humana.
A DeepReinforce também leva a sério a manipulação de recompensas (reward hacking). Se o modelo pode escrever sua própria estrutura de treinamento, ele pode teoricamente escrever uma estrutura que engana o verificador — tocando um arquivo para fazer parecer que completou uma tarefa sem realmente fazer o trabalho. Três camadas de defesa bloqueiam isso: o ambiente e o conjunto de testes são imutáveis e fora do alcance do modelo, um monitor determinístico sinaliza qualquer tentativa de acessar caminhos restritos ou alterar scripts de verificação, e um modelo de juiz "congelado" fica acima do verificador automatizado como um veto.
O modelo carro-chefe de 397 bilhões de parâmetros registra 82,4 no SWE-bench Verified — um teste onde uma IA recebe um bug real de um repositório GitHub de código aberto e deve corrigi-lo sem ver o conjunto de testes, pontuado como a porcentagem de problemas que resolve com sucesso.
Isso supera o Claude Opus 4.7 com 80,8 e o DeepSeek-V4-Pro com 80,6 no mesmo teste. No Terminal Bench 2.1 — 89 tarefas executadas em ambientes de terminal containerizados, que vão desde depuração de código assíncrono até resolução de vulnerabilidades de segurança, pontuadas pela taxa de conclusão — ele registra 77,5 contra 70,3 do Claude Opus 4.7.
Dado que preocupações com a contaminação do SWE-bench foram levantadas publicamente — a OpenAI argumentou no início deste ano que os modelos estavam inflando pontuações memorizando soluções de benchmarks vistas durante o treinamento — o Ornith também relata números no SWE-bench Pro, uma versão mais difícil usando bases de código mais diversas e menos vazadas, pontuada da mesma forma. O modelo de 397 bilhões atinge 62,2 lá. Significativamente menor, mas ainda competitivo com o campo, e ainda melhor que o Deepseek V4 Pro.
O modelo de 9 bilhões de parâmetros pode ser o dado mais interessante. Ele registra 69,4 no SWE-bench Verified — mais alto que os 52 do Gemma 4-31B e competitivo com os 70 do Qwen 3.5-35B, apesar de ser 3 a 4 vezes menor.
O Ornith-1.0 explicitamente não é uma IA de propósito geral. A própria documentação do modelo afirma que ele pode ter um desempenho inferior em tarefas fora da codificação agêntica. Se você deseja que a IA resuma um documento, ajude a escrever sua tese de doutorado ou rascunhe um e-mail, o Ornith-1.0 é a escolha errada.
Ele é otimizado para um conjunto restrito de problemas: pipelines de desenvolvedores onde um agente de IA recebe uma descrição de tarefa, opera dentro de um repositório de código ou sessão de terminal, e completa um trabalho de múltiplas etapas sem intervenção. Esta é uma ferramenta construída para pessoas que já estão executando infraestruturas de agentes — não para pessoas tentando decidir se a IA vale a pena ser usada.
A manchete "supera Claude" é real, mas exige contexto. Como o Decrypt relatou, todo laboratório está agora buscando desempenho em avaliações de codificação agêntica, porque é aí que residem as diferenças de desempenho úteis.
O Ornith-1.0-397B realmente supera o Claude Opus 4.7 em ambos os benchmarks de codificação diferentes, mas o carro-chefe atual da Anthropic, Claude Opus 4.8, pontua mais alto. A comparação que se mantém é dentro da categoria de código aberto, com contagens de parâmetros comparáveis, em tarefas de agente específicas para codificação.
Para desenvolvedores que constroem pipelines de codificação auto-hospedados, infraestruturas agênticas ou trabalhos semelhantes focados em codificação, os modelos pequenos e médios executados em hardware de borda podem ser genuinamente úteis, mas o usuário comum pode se dar melhor procurando em outro lugar.