
DeepReinforce 是一家 AI 研究實驗室,此前以 CUDA-L1 和 IterX 程式碼代理優化循環而聞名,上週晚些時候發布了 Ornith-1.0——這是一個開源編碼模型家族,在 Hugging Face 上提供四種不同參數規模的版本:90 億、310 億、350 億專家混合模型以及 3970 億的旗艦專家混合模型,所有版本均採用 MIT 授權,沒有地域限制。
參數基本上是模型在訓練時可以處理的調整和配置數量。參數越多,模型的能力就越強。一個 90 億參數的模型被認為是小型模型,足以在好的智慧型手機上運行,但無法可靠地執行任何繁重的推理任務。而 3970 億參數的模型則功能強大得多,但需要大量的計算資源,這類資源在消費級硬體上是無法取得的。
該實驗室將其描述為「一個專門用於代理式編碼任務的自我改進開源模型家族」。其中「代理式」(agentic)這個詞涵蓋了許多內容。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.
Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) June 25, 2026
大多數人互動的 AI 都是對話式的:你輸入,它回應,對話就結束了。代理式 AI 則不同——它接收一個任務,然後採取行動來完成它,而無需人類指導每個步驟。在編碼環境中,這意味著一個 AI 能夠讀取文件、運行測試、識別失敗之處、修復程式碼,並循環執行直到任務完成。
因此,代理式 AI 意味著在大多數情況下,無需有人在鍵盤前。這就是關鍵所在。這也是 2026 年商業上最相關的進展方向——那些能夠在無人監督下執行 20 步開發工作流程的模型,比那些應要求編寫一個簡潔函數的模型更有價值。
然而,大多數大型語言模型仍然是圍繞人類回饋設計的。
大多數 AI 編碼代理都與一個由人類設計的「支架」(harness)配對——這是一套固定規則,用於指導代理如何組織其工作:何時呼叫工具、如何處理錯誤、如何分解多步驟問題。Ornith 則「將支架視為一個可學習的對象,與策略共同演進」。
翻譯過來就是:它不是繼承別人的策略,而是發展自己的策略。
在強化學習期間,每個訓練步驟分為兩個階段。模型首先讀取任務並提出一種改進的策略來處理它。然後它使用該策略生成解決方案。
結果的回饋會流回這兩個階段——因此模型被優化為編寫更好的策略,而不僅僅是更好的程式碼。這樣數千數萬次之後,無需人類設計,就能夠產生針對特定任務的方法。
DeepReinforce 也認真對待「獎勵駭客」(reward hacking)問題。如果模型可以編寫自己的訓練支架,理論上它可能會編寫一個可以欺騙驗證器的支架——透過觸碰文件使其看起來像已完成任務,但實際上並未完成工作。三層防禦機制可以阻止這種情況發生:環境和測試套件是不可變的,超出模型的範圍;一個確定性監測器會標記任何嘗試訪問受限路徑或更改驗證腳本的行為;一個凍結的評判模型則位於自動驗證器之上,作為否決權。
旗艦型 3970 億參數模型在 SWE-bench Verified 上獲得 82.4 分——這項測試要求 AI 在不查看測試套件的情況下,修復開源 GitHub 儲存庫中的真實錯誤,得分是其成功解決問題的百分比。
這超越了 Claude Opus 4.7 的 80.8 分和 DeepSeek-V4-Pro 的 80.6 分。在 Terminal Bench 2.1(在容器化終端環境中運行 89 個任務,範圍從調試非同步程式碼到解決安全漏洞,按完成率計分)上,它以 77.5 分領先於 Claude Opus 4.7 的 70.3 分。
鑑於 SWE-bench 污染問題已公開提出——OpenAI 今年早些時候曾指出,模型透過記憶訓練期間見過的基準解決方案來誇大分數——Ornith 還報告了 SWE-bench Pro 的數據,這是一個更困難的版本,使用更多樣、洩露更少的程式碼庫,計分方式相同。3970 億參數模型在此測試中得分 62.2。雖然明顯較低,但仍與該領域的其他模型競爭,並且優於 Deepseek V4 Pro。
90 億參數模型可能是更有趣的數據點。它在 SWE-bench Verified 上獲得 69.4 分——高於 Gemma 4-31B 的 52 分,並與 Qwen 3.5-35B 的 70 分具有競爭力,儘管其規模小了 3-4 倍。
Ornith-1.0 明確不是通用型 AI。該模型自己的文件說明,它在代理式編碼之外的任務上可能會表現不佳。如果你想讓 AI 總結文件、幫助你撰寫博士論文或起草電子郵件,Ornith-1.0 並不合適。
它針對狹窄的問題集進行了優化:開發者管線,其中 AI 代理接收任務描述,在程式碼儲存庫或終端會話中操作,並在無需干預的情況下完成多步驟工作。這是一個為已經運行代理基礎設施的人打造的工具,而不是為那些試圖決定 AI 是否值得使用的人準備的。
「擊敗 Claude」這個標題確實存在,但需要背景資訊。正如 Decrypt 報導的,現在每個實驗室都在追逐代理式編碼評估上的表現,因為這才是真正有用的性能差異所在。
Ornith-1.0-397B 在兩種不同的編碼基準測試中確實超越了 Claude Opus 4.7,但 Anthropic 目前的旗艦模型 Claude Opus 4.8 則得分更高。真正站得住腳的比較是在開源類別中,在相近的參數數量下,針對特定編碼代理任務的表現。
對於正在建立自託管編碼管線、代理基礎設施或類似編碼相關工作的開發人員來說,在邊緣硬體上運行的小型和中型模型可能確實很有用,但對於一般大眾來說,最好另尋他處。