Agregação de Tags de Notícias Cripto e Conteúdo Temático

ornith-open-source-coding-model-built-for-agents

Ornith É o Modelo de Codificação de Código Aberto Desenvolvido para Agentes, Não Humanos

Um novo modelo desenvolvido pela DeepReinforce é destinado a desenvolvedores que buscam uma IA capaz de concluir o trabalho, e não apenas autocompletar a próxima linha.

2026-06-29 Fonte:decrypt.co

Agente AI

Em resumo

A DeepReinforce lançou o Ornith-1.0 em 25 de junho sob licença MIT, construído especificamente para agentes de codificação de IA que operam em ambientes de terminal e repositório reais.
A variante 9B alcança 69,4 no SWE-bench Verified, superando o Gemma 4-31B do Google (52,0).
O próprio cartão do modelo Ornith adverte que os modelos podem ter um desempenho inferior em tarefas não relacionadas à codificação — eles são projetados para pipelines de desenvolvedores, não para conversas de IA de propósito geral.

A DeepReinforce, um laboratório de pesquisa de IA anteriormente conhecido por CUDA-L1 e o loop de otimização de agente de código IterX, lançou o Ornith-1.0 no final da semana passada — uma família de modelos de codificação de código aberto disponíveis no Hugging Face em quatro tamanhos com base no número de parâmetros: 9 bilhões, 31 bilhões, 35 bilhões de mistura de especialistas, e um carro-chefe de 397 bilhões de mistura de especialistas, todos sob licença MIT sem restrições regionais.

Parâmetros são basicamente o número de ajustes e configurações que um modelo pode gerenciar em seu treinamento. Quanto mais parâmetros, mais capaz é um modelo. Um modelo de 9 bilhões de parâmetros é considerado pequeno, bom o suficiente para rodar em um bom smartphone, mas não capaz de realizar qualquer tarefa de raciocínio pesado de forma confiável. Um modelo de 397 bilhões é muito mais capaz, mas requer computação pesada, o tipo que não está disponível em hardware de consumidor.

O laboratório o descreve como "uma família de modelos de código aberto autoaprimoráveis, especialmente para tarefas de codificação agêntica". Essa palavra — agêntica — está fazendo um grande trabalho.

Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.

Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on… pic.twitter.com/7g1rmacLps

— Ornith (@ornith_) June 25, 2026

A maioria das IAs com as quais as pessoas interagem é conversacional: você digita, ela responde, a troca termina. A IA agêntica é diferente — ela recebe uma tarefa e executa ações para completá-la sem que um humano guie cada passo. Em um contexto de codificação, isso significa uma IA que lê arquivos, executa testes, identifica o que falhou, corrige o código e repete o processo até que esteja pronto.

Então, IA agêntica significa que ninguém precisa estar no teclado na maior parte do tempo. Esse é o ponto principal. Esta é também a direção onde o progresso comercialmente mais relevante está acontecendo em 2026 — os modelos que podem executar fluxos de trabalho de desenvolvimento de 20 etapas sem supervisão valem mais do que aqueles que escrevem uma função limpa sob demanda.

No entanto, a maioria dos grandes modelos de linguagem ainda são projetados com o feedback humano em mente.

Como funciona o cérebro do Ornith

A maioria dos agentes de codificação de IA são pareados com uma estrutura projetada por humanos — um conjunto fixo de regras para como o agente estrutura seu trabalho: quando chamar uma ferramenta, como lidar com um erro, como decompor um problema multi-passos. O Ornith, em vez disso, "trata o andaime como um objeto aprendível que coevolui com a política."

Tradução: em vez de herdar o plano de jogo de outra pessoa, ele desenvolve o seu próprio.

Durante o aprendizado por reforço, cada etapa de treinamento ocorre em duas fases. O modelo primeiro lê a tarefa e propõe uma estratégia refinada para abordá-la. Em seguida, ele usa essa estratégia para gerar uma solução.

A recompensa do resultado retorna para ambas as etapas — então o modelo é otimizado para escrever melhores estratégias, não apenas melhor código. Faça isso milhares e milhões de vezes, e abordagens específicas para tarefas emergem sem a engenharia humana.

A DeepReinforce também leva a sério a manipulação de recompensas (reward hacking). Se o modelo pode escrever sua própria estrutura de treinamento, ele pode teoricamente escrever uma estrutura que engana o verificador — tocando um arquivo para fazer parecer que completou uma tarefa sem realmente fazer o trabalho. Três camadas de defesa bloqueiam isso: o ambiente e o conjunto de testes são imutáveis e fora do alcance do modelo, um monitor determinístico sinaliza qualquer tentativa de acessar caminhos restritos ou alterar scripts de verificação, e um modelo de juiz "congelado" fica acima do verificador automatizado como um veto.

Os números

O modelo carro-chefe de 397 bilhões de parâmetros registra 82,4 no SWE-bench Verified — um teste onde uma IA recebe um bug real de um repositório GitHub de código aberto e deve corrigi-lo sem ver o conjunto de testes, pontuado como a porcentagem de problemas que resolve com sucesso.

Isso supera o Claude Opus 4.7 com 80,8 e o DeepSeek-V4-Pro com 80,6 no mesmo teste. No Terminal Bench 2.1 — 89 tarefas executadas em ambientes de terminal containerizados, que vão desde depuração de código assíncrono até resolução de vulnerabilidades de segurança, pontuadas pela taxa de conclusão — ele registra 77,5 contra 70,3 do Claude Opus 4.7.

Dado que preocupações com a contaminação do SWE-bench foram levantadas publicamente — a OpenAI argumentou no início deste ano que os modelos estavam inflando pontuações memorizando soluções de benchmarks vistas durante o treinamento — o Ornith também relata números no SWE-bench Pro, uma versão mais difícil usando bases de código mais diversas e menos vazadas, pontuada da mesma forma. O modelo de 397 bilhões atinge 62,2 lá. Significativamente menor, mas ainda competitivo com o campo, e ainda melhor que o Deepseek V4 Pro.

O modelo de 9 bilhões de parâmetros pode ser o dado mais interessante. Ele registra 69,4 no SWE-bench Verified — mais alto que os 52 do Gemma 4-31B e competitivo com os 70 do Qwen 3.5-35B, apesar de ser 3 a 4 vezes menor.

Para quem é, e para quem não é

O Ornith-1.0 explicitamente não é uma IA de propósito geral. A própria documentação do modelo afirma que ele pode ter um desempenho inferior em tarefas fora da codificação agêntica. Se você deseja que a IA resuma um documento, ajude a escrever sua tese de doutorado ou rascunhe um e-mail, o Ornith-1.0 é a escolha errada.

Ele é otimizado para um conjunto restrito de problemas: pipelines de desenvolvedores onde um agente de IA recebe uma descrição de tarefa, opera dentro de um repositório de código ou sessão de terminal, e completa um trabalho de múltiplas etapas sem intervenção. Esta é uma ferramenta construída para pessoas que já estão executando infraestruturas de agentes — não para pessoas tentando decidir se a IA vale a pena ser usada.

A manchete "supera Claude" é real, mas exige contexto. Como o Decrypt relatou, todo laboratório está agora buscando desempenho em avaliações de codificação agêntica, porque é aí que residem as diferenças de desempenho úteis.

O Ornith-1.0-397B realmente supera o Claude Opus 4.7 em ambos os benchmarks de codificação diferentes, mas o carro-chefe atual da Anthropic, Claude Opus 4.8, pontua mais alto. A comparação que se mantém é dentro da categoria de código aberto, com contagens de parâmetros comparáveis, em tarefas de agente específicas para codificação.

Para desenvolvedores que constroem pipelines de codificação auto-hospedados, infraestruturas agênticas ou trabalhos semelhantes focados em codificação, os modelos pequenos e médios executados em hardware de borda podem ser genuinamente úteis, mas o usuário comum pode se dar melhor procurando em outro lugar.