Tổng hợp tin tức về crypto theo thẻ và nội dung theo chủ đề

ornith-open-source-coding-model-built-for-agents

Ornith Là Mô hình Lập trình Mã nguồn mở Được Xây dựng cho Các Tác nhân, Không phải Con người

Một mô hình mới do DeepReinforce xây dựng hướng đến các nhà phát triển muốn AI hoàn thành toàn bộ công việc, không chỉ đơn thuần là tự động điền dòng code kế tiếp.

2026-06-29 Nguồn:decrypt.co

AI Tác Động

Tóm tắt

DeepReinforce đã phát hành Ornith-1.0 vào ngày 25 tháng 6 theo giấy phép MIT, được thiết kế chuyên biệt cho các tác nhân mã hóa AI hoạt động trong môi trường terminal và kho lưu trữ thực tế.
Phiên bản 9B đạt 69.4 điểm trên SWE-bench Verified, vượt trội so với Gemma 4-31B của Google (52.0).
Thẻ mô hình của Ornith tự cảnh báo rằng các mô hình này có thể hoạt động kém hiệu quả đối với các tác vụ không liên quan đến mã hóa—chúng được thiết kế cho quy trình phát triển, không phải cho các cuộc hội thoại AI đa năng.

DeepReinforce, một phòng thí nghiệm nghiên cứu AI trước đây được biết đến với CUDA-L1 và vòng lặp tối ưu hóa tác nhân mã IterX, đã phát hành Ornith-1.0 vào cuối tuần trước — một họ các mô hình mã hóa mã nguồn mở có sẵn trên Hugging Face với bốn kích cỡ dựa trên số lượng tham số: 9 tỷ, 31 tỷ, 35 tỷ kết hợp chuyên gia, và một mô hình chủ lực 397 tỷ kết hợp chuyên gia, tất cả đều theo giấy phép MIT không giới hạn khu vực.

Tham số về cơ bản là số lượng các nút điều khiển và cấu hình mà một mô hình có thể xử lý trong quá trình huấn luyện của nó. Càng nhiều tham số, mô hình càng có khả năng. Một mô hình 9 tỷ tham số được coi là nhỏ, đủ tốt để chạy trên một chiếc điện thoại thông minh tốt, nhưng không có khả năng thực hiện bất kỳ tác vụ suy luận nặng nào một cách đáng tin cậy. Một mô hình 397 tỷ tham số có khả năng hơn nhiều, nhưng đòi hỏi sức mạnh tính toán lớn, loại không có sẵn trên phần cứng tiêu dùng.

Phòng thí nghiệm mô tả nó là "một họ mô hình mã nguồn mở tự cải thiện đặc biệt dành cho các tác vụ mã hóa tác nhân." Từ — tác nhân (agentic) — đang làm rất nhiều việc.

Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding.

Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense, 35B MoE, and 397B MoE. It achieves state-of-the-art performance among open-source models of comparable size on… pic.twitter.com/7g1rmacLps

— Ornith (@ornith_) June 25, 2026

Hầu hết AI mà mọi người tương tác đều là đối thoại: bạn gõ, nó phản hồi, cuộc trao đổi kết thúc. AI tác nhân thì khác — nó nhận một nhiệm vụ và thực hiện các hành động để hoàn thành mà không cần con người hướng dẫn từng bước. Trong bối cảnh mã hóa, điều đó có nghĩa là một AI đọc tệp, chạy thử nghiệm, xác định lỗi, sửa mã và lặp lại cho đến khi hoàn thành.

Vì vậy, AI tác nhân có nghĩa là không ai cần phải ngồi trước bàn phím trong phần lớn thời gian. Đó là toàn bộ vấn đề. Đây cũng là hướng mà tiến bộ thương mại có liên quan nhất đang diễn ra vào năm 2026 — các mô hình có thể tự động chạy qua quy trình phát triển 20 bước có giá trị hơn những mô hình chỉ viết một chức năng sạch theo yêu cầu.

Tuy nhiên, hầu hết các mô hình ngôn ngữ lớn vẫn được thiết kế với phản hồi của con người.

Cách bộ não của Ornith hoạt động

Hầu hết các tác nhân mã hóa AI được ghép nối với một khung sườn (harness) do con người thiết kế — một tập hợp các quy tắc cố định về cách tác nhân cấu trúc công việc của mình: khi nào gọi một công cụ, cách xử lý lỗi, cách phân rã một vấn đề đa bước. Thay vào đó, Ornith "xử lý khung sườn như một đối tượng có thể học được và cùng tiến hóa với chính sách."

Dịch: thay vì thừa hưởng cách làm việc của người khác, nó tự phát triển cách làm việc của riêng mình.

Trong quá trình học tăng cường, mỗi bước huấn luyện diễn ra trong hai giai đoạn. Mô hình đầu tiên đọc nhiệm vụ và đề xuất một chiến lược tinh chỉnh để tiếp cận nó. Sau đó, nó sử dụng chiến lược đó để tạo ra một giải pháp.

Phần thưởng từ kết quả sẽ chảy ngược lại cả hai giai đoạn — vì vậy mô hình được tối ưu hóa để viết các chiến lược tốt hơn, không chỉ mã tốt hơn. Thực hiện điều đó hàng nghìn và hàng triệu lần, và các phương pháp tiếp cận chuyên biệt theo nhiệm vụ sẽ xuất hiện mà không cần con người thiết kế chúng.

DeepReinforce cũng rất coi trọng việc gian lận phần thưởng. Nếu mô hình có thể tự viết khung sườn huấn luyện của mình, về mặt lý thuyết, nó có thể viết một khung sườn để lừa bộ kiểm tra — chạm vào một tệp để làm cho nó trông như đã hoàn thành một nhiệm vụ mà không thực sự làm công việc đó. Ba lớp phòng thủ ngăn chặn điều này: môi trường và bộ kiểm thử là bất biến và nằm ngoài tầm với của mô hình, một trình giám sát xác định sẽ gắn cờ bất kỳ nỗ lực nào truy cập các đường dẫn bị hạn chế hoặc sửa đổi các tập lệnh xác minh, và một mô hình đánh giá cố định nằm trên bộ xác minh tự động như một quyền phủ quyết.

Các con số

Mô hình chủ lực 397 tỷ tham số đạt 82.4 điểm trên SWE-bench Verified — một bài kiểm tra trong đó AI được giao một lỗi thực tế từ một kho lưu trữ GitHub mã nguồn mở và phải sửa lỗi đó mà không thấy bộ kiểm thử, được chấm điểm theo tỷ lệ phần trăm các vấn đề nó giải quyết thành công.

Con số đó vượt qua Claude Opus 4.7 với 80.8 và DeepSeek-V4-Pro với 80.6 trên cùng bài kiểm tra. Trên Terminal Bench 2.1 — 89 tác vụ chạy trong môi trường terminal container hóa, từ gỡ lỗi mã bất đồng bộ đến giải quyết các lỗ hổng bảo mật, được chấm điểm theo tỷ lệ hoàn thành — nó đạt 77.5 so với 70.3 của Claude Opus 4.7.

Do các lo ngại về ô nhiễm SWE-bench đã được công khai — OpenAI đã lập luận hồi đầu năm nay rằng các mô hình đã làm tăng điểm số bằng cách ghi nhớ các giải pháp benchmark đã thấy trong quá trình huấn luyện — Ornith cũng báo cáo các con số trên SWE-bench Pro, một phiên bản khó hơn sử dụng các cơ sở mã đa dạng hơn, ít bị rò rỉ hơn và được chấm điểm theo cùng một cách. Mô hình 397 tỷ đạt 62.2 ở đó. Mặc dù thấp hơn đáng kể, nhưng vẫn cạnh tranh với các mô hình khác trong ngành và vẫn tốt hơn Deepseek V4 Pro.

Mô hình 9 tỷ tham số có thể là điểm dữ liệu thú vị hơn. Nó đạt 69.4 trên SWE-bench Verified — cao hơn 52 của Gemma 4-31B và cạnh tranh với 70 của Qwen 3.5-35B, mặc dù nhỏ hơn 3-4 lần.

Đối tượng phù hợp và không phù hợp

Ornith-1.0 rõ ràng không phải là một AI đa năng. Tài liệu của mô hình này cũng nói rằng nó có thể hoạt động kém hiệu quả đối với các tác vụ ngoài mã hóa tác nhân. Nếu bạn muốn AI tóm tắt tài liệu, giúp bạn viết luận án tiến sĩ hoặc soạn thảo email, Ornith-1.0 là lựa chọn sai lầm.

Nó được tối ưu hóa cho một tập hợp vấn đề hẹp: các quy trình phát triển nơi một tác nhân AI nhận một mô tả nhiệm vụ, hoạt động bên trong một kho mã hoặc phiên terminal, và hoàn thành công việc nhiều bước mà không cần can thiệp. Đây là một công cụ được xây dựng cho những người đã và đang vận hành cơ sở hạ tầng tác nhân — chứ không phải cho những người đang cố gắng quyết định xem AI có đáng để sử dụng hay không.

Tiêu đề "vượt trội Claude" là có thật nhưng cần có ngữ cảnh. Như Decrypt đã báo cáo, mọi phòng thí nghiệm hiện đang theo đuổi hiệu suất trên các đánh giá mã hóa tác nhân, bởi vì đó là nơi tồn tại sự khác biệt về hiệu suất hữu ích.

Ornith-1.0-397B thực sự vượt qua Claude Opus 4.7 trên cả hai tiêu chuẩn mã hóa khác nhau, nhưng Claude Opus 4.8, mô hình chủ lực hiện tại của Anthropic, đạt điểm cao hơn. So sánh có giá trị là trong danh mục mã nguồn mở, ở các số lượng tham số tương đương, trên các tác vụ tác nhân chuyên biệt về mã hóa.

Đối với các nhà phát triển xây dựng các quy trình mã hóa tự lưu trữ, cơ sở hạ tầng tác nhân hoặc các công việc tập trung vào mã hóa tương tự, các mô hình nhỏ và trung bình chạy trên phần cứng biên có thể thực sự hữu ích, nhưng người dùng bình thường có thể nên tìm kiếm ở nơi khác.

Tin nổi bật

Các PAC do Ripple hậu thuẫn thúc đẩy chi tiêu bầu cử tiền mã hóa lên kỷ lục 189 triệu USD

12 giờ trước

SEC nghi vấn khung pháp lý ETF mới khi phê duyệt quỹ dự đoán bế tắc

14 giờ trước

Kalshi bị áp đặt lệnh cấm tạm thời 14 ngày tại Michigan, chặn các thị trường dự đoán thể thao trong tiểu bang

14 giờ trước

Bài viết khác

Cổ phiếu Circle giảm 16% sau tiết lộ về Open USD, các nhà phân tích cho rằng nỗi lo ngại là 'quá mức'

4 giờ trước

SEC khởi động xem xét quy định ETF sau sự bùng nổ quỹ crypto và sức ép từ thị trường dự đoán.

6 giờ trước