تجمیع برچسب اخبار کریپتو و اخبار اختصاصی

ornith-open-source-coding-model-built-for-agents

اورنیت، مدل کدنویسی متن‌باز ساخته شده برای عامل‌ها، نه انسان‌ها

مدل جدیدی که توسط DeepReinforce توسعه یافته است، برای توسعه‌دهندگانی طراحی شده که به هوش مصنوعی‌ای نیاز دارند که کار را به طور کامل به انجام برساند، نه صرفاً خط بعدی را تکمیل خودکار کند.

2026-06-29 منبع:decrypt.co

هوش مصنوعی عامل‌محور

به طور خلاصه

DeepReinforce در ۲۵ ژوئن، Ornith-1.0 را تحت لیسانس MIT منتشر کرد، که به طور خاص برای عوامل کدنویسی هوش مصنوعی طراحی شده است که در محیط‌های واقعی ترمینال و مخزن کار می‌کنند.
نسخه 9B امتیاز ۶۹.۴ را در SWE-bench Verified کسب کرد، که از Gemma 4-31B گوگل (۵۲.۰) پیشی می‌گیرد.
کارت مدل خود Ornith هشدار می‌دهد که این مدل‌ها ممکن است در وظایف غیرکدنویسی عملکرد ضعیفی داشته باشند—آن‌ها برای خطوط لوله توسعه‌دهندگان سیم‌کشی شده‌اند، نه برای مکالمات عمومی هوش مصنوعی.

DeepReinforce، یک آزمایشگاه تحقیقاتی هوش مصنوعی که قبلاً برای CUDA-L1 و حلقه بهینه‌سازی عامل کد IterX شناخته شده بود، اواخر هفته گذشته Ornith-1.0 را منتشر کرد—خانواده‌ای از مدل‌های کدنویسی منبع‌باز که در Hugging Face در چهار اندازه بر اساس تعداد پارامترها در دسترس هستند: ۹ میلیارد، ۳۱ میلیارد، ۳۵ میلیارد ترکیب از متخصصان، و یک مدل پرچم‌دار ۳۹۷ میلیارد ترکیب از متخصصان، همگی تحت لیسانس MIT و بدون محدودیت منطقه‌ای.

پارامترها اساساً تعداد اهرم‌ها و تنظیماتی هستند که یک مدل می‌تواند در آموزش خود مدیریت کند. هرچه پارامترها بیشتر باشند، مدل توانایی بیشتری دارد. یک مدل ۹ میلیارد پارامتری کوچک محسوب می‌شود، برای اجرا روی یک گوشی هوشمند خوب کافی است، اما قادر به انجام هیچ وظیفه استدلالی سنگینی به طور قابل اعتماد نیست. یک مدل ۳۹۷ میلیارد پارامتری بسیار توانمندتر است، اما به محاسبات سنگین نیاز دارد، از نوعی که در سخت‌افزار مصرف‌کننده در دسترس نیست.

این آزمایشگاه آن را به عنوان "خانواده‌ای خودبهبود دهنده از مدل‌های منبع‌باز به طور خاص برای وظایف کدنویسی عامل‌محور" توصیف می‌کند. کلمه "عامل‌محور" در اینجا اهمیت زیادی دارد.

سلام! 🌺 با Ornith-1.0 آشنا شوید، خانواده‌ای از مدل‌های زبان بزرگ (LLM) منبع‌باز که در کدنویسی عامل‌محور تخصص دارند.

Ornith-1.0 تمام اندازه‌های پارامتر از جمله ۹B Dense، ۳۱B Dense، ۳۵B MoE، و ۳۹۷B MoE را در بر می‌گیرد. این مدل به عملکرد پیشرفته‌ای در میان مدل‌های منبع‌باز با اندازه مشابه دست یافته است…

— Ornith (@ornith_) ۲۵ ژوئن ۲۰۲۶

بیشتر هوش مصنوعی که مردم با آن تعامل دارند مکالمه‌ای است: شما تایپ می‌کنید، پاسخ می‌دهد، تبادل پایان می‌یابد. هوش مصنوعی عامل‌محور متفاوت است—وظیفه‌ای را دریافت می‌کند و برای تکمیل آن بدون راهنمایی انسان در هر مرحله، اقداماتی را انجام می‌دهد. در زمینه کدنویسی، این بدان معناست که هوش مصنوعی فایل‌ها را می‌خواند، تست‌ها را اجرا می‌کند، آنچه را که خطا داشته شناسایی می‌کند، کد را اصلاح می‌کند و دوباره تا زمانی که کار تمام شود، حلقه می‌زند.

بنابراین هوش مصنوعی عامل‌محور به این معنی است که بیشتر اوقات نیازی به حضور کسی پشت کیبورد نیست. این تمام ماجراست. این همچنین مسیری است که بیشترین پیشرفت تجاری مرتبط در سال ۲۰۲۶ در آن رخ می‌دهد—مدل‌هایی که می‌توانند به صورت خودکار ۲۰ مرحله از جریان‌های کاری توسعه را اجرا کنند، ارزشمندتر از مدل‌هایی هستند که در صورت درخواست یک تابع تمیز می‌نویسند.

با این حال، اکثر مدل‌های زبان بزرگ هنوز با در نظر گرفتن بازخورد انسانی طراحی شده‌اند.

نحوه عملکرد مغز Ornith

بیشتر عوامل کدنویسی هوش مصنوعی با یک چارچوب طراحی‌شده توسط انسان همراه می‌شوند—مجموعه‌ای ثابت از قوانین برای اینکه عامل چگونه کار خود را ساختاربندی می‌کند: چه زمانی ابزاری را فراخوانی کند، چگونه خطایی را مدیریت کند، چگونه یک مسئله چند مرحله‌ای را تجزیه کند. Ornith به جای آن "چارچوب را به عنوان یک شی قابل یادگیری در نظر می‌گیرد که با سیاست هم‌تکامل می‌یابد."

ترجمه: به جای اینکه دفترچه راهنمای دیگری را به ارث ببرد، خودش آن را توسعه می‌دهد.

در طول یادگیری تقویتی، هر مرحله آموزش در دو مرحله اتفاق می‌افتد. مدل ابتدا وظیفه را می‌خواند و یک استراتژی اصلاح‌شده برای نزدیک شدن به آن پیشنهاد می‌کند. سپس از آن استراتژی برای تولید یک راه‌حل استفاده می‌کند.

پاداش حاصل از نتیجه به هر دو مرحله بازمی‌گردد—بنابراین مدل برای نوشتن استراتژی‌های بهتر، نه فقط کد بهتر، بهینه می‌شود. این کار را هزاران و میلیون‌ها بار انجام دهید، و رویکردهای خاص وظیفه بدون مهندسی انسانی پدیدار می‌شوند.

DeepReinforce همچنین هک پاداش را جدی می‌گیرد. اگر مدل بتواند چارچوب آموزشی خود را بنویسد، از لحاظ نظری می‌تواند چارچوبی بنویسد که تاییدکننده را فریب دهد—با دستکاری یک فایل تا به نظر برسد که وظیفه را بدون انجام واقعی کار تکمیل کرده است. سه لایه دفاعی این امر را مسدود می‌کنند: محیط و مجموعه تست‌ها غیرقابل تغییر و خارج از دسترس مدل هستند، یک ناظر قطعی هر تلاشی برای دسترسی به مسیرهای محدود یا تغییر اسکریپت‌های تأیید را علامت‌گذاری می‌کند، و یک مدل قاضی ثابت بر روی تأییدکننده خودکار به عنوان حق وتو عمل می‌کند.

اعداد

مدل پرچم‌دار ۳۹۷ میلیارد پارامتری امتیاز ۸۲.۴ را در SWE-bench Verified کسب می‌کند—آزمایشی که در آن به هوش مصنوعی یک باگ واقعی از یک مخزن GitHub منبع‌باز داده می‌شود و باید آن را بدون دیدن مجموعه تست‌ها رفع کند، و امتیاز آن به عنوان درصد مشکلاتی که با موفقیت حل می‌کند محاسبه می‌شود.

این امتیاز از ۸۰.۸ Claude Opus 4.7 و ۸۰.۶ DeepSeek-V4-Pro در همین تست بیشتر است. در Terminal Bench 2.1—که ۸۹ وظیفه در محیط‌های ترمینال کانتینری از اشکال‌زدایی کد ناهمزمان تا رفع آسیب‌پذیری‌های امنیتی را شامل می‌شود و بر اساس نرخ تکمیل امتیازدهی می‌شود—۷۷.۵ امتیاز را در مقابل ۷۰.۳ Claude Opus 4.7 کسب کرده است.

با توجه به اینکه نگرانی‌هایی در مورد آلودگی SWE-bench علناً مطرح شده است—OpenAI اوایل سال جاری استدلال کرد که مدل‌ها با حفظ کردن راه‌حل‌های محک در طول آموزش، امتیازات را بالا می‌برند—Ornith همچنین اعدادی را برای SWE-bench Pro گزارش می‌دهد، نسخه‌ای سخت‌تر که از پایگاه‌های کد متنوع‌تر و کمتر لو رفته استفاده می‌کند و به همان شیوه امتیازدهی می‌شود. مدل ۳۹۷ میلیارد پارامتری در آن ۶۲.۲ امتیاز کسب می‌کند. به طور قابل توجهی پایین‌تر، اما هنوز هم با این حوزه رقابتی است، و هنوز هم بهتر از Deepseek V4 Pro.

مدل ۹ میلیارد پارامتری ممکن است نکته داده‌ای جالب‌تری باشد. این مدل ۶۹.۴ امتیاز را در SWE-bench Verified کسب می‌کند—بالاتر از ۵۲ Gemma 4-31B و رقابتی با ۷۰ Qwen 3.5-35B، با وجود اینکه ۳ تا ۴ برابر کوچک‌تر است.

برای چه کسانی است و برای چه کسانی نیست

Ornith-1.0 به صراحت یک هوش مصنوعی عمومی نیست. مستندات خود مدل می‌گوید که ممکن است در وظایف خارج از کدنویسی عامل‌محور عملکرد ضعیفی داشته باشد. اگر می‌خواهید هوش مصنوعی سندی را خلاصه کند، به شما در نوشتن رساله دکترا کمک کند، یا یک ایمیل بنویسید، Ornith-1.0 انتخاب اشتباهی است.

این ابزار برای مجموعه مسائل محدودی بهینه‌سازی شده است: خطوط لوله توسعه‌دهندگان که در آن یک عامل هوش مصنوعی شرح وظیفه را می‌پذیرد، در یک مخزن کد یا جلسه ترمینال کار می‌کند و کارهای چند مرحله‌ای را بدون دخالت تکمیل می‌کند. این ابزاری است که برای افرادی ساخته شده است که در حال حاضر زیرساخت‌های عامل را اداره می‌کنند—نه برای افرادی که می‌خواهند تصمیم بگیرند آیا استفاده از هوش مصنوعی ارزش دارد یا خیر.

عنوان "Claude را شکست می‌دهد" واقعی است اما نیاز به زمینه دارد. همانطور که Decrypt گزارش داد، هر آزمایشگاهی اکنون به دنبال عملکرد در ارزیابی‌های کدنویسی عامل‌محور است، زیرا تفاوت‌های عملکردی مفید در آنجا قرار دارند.

Ornith-1.0-397B در هر دو محک کدنویسی مختلف از Claude Opus 4.7 پیشی می‌گیرد، اما پرچم‌دار فعلی Anthropic، Claude Opus 4.8، امتیاز بالاتری دارد. مقایسه‌ای که معتبر است، در دسته منبع‌باز، با تعداد پارامترهای مشابه، در وظایف عامل‌محور خاص کدنویسی است.

برای توسعه‌دهندگانی که خطوط لوله کدنویسی خودمیزبان، زیرساخت‌های عامل‌محور، یا کارهای مشابه متمرکز بر کدنویسی را می‌سازند، مدل‌های کوچک و متوسط که روی سخت‌افزار لبه‌ای اجرا می‌شوند ممکن است واقعاً مفید باشند، اما افراد عادی ممکن است بهتر باشد به جای دیگری نگاه کنند.

مطالب پربازدید

ویزا، استرایپ، کوین‌بیس و دیگران به استیبل‌کوین Open USD با مدل اشتراک درآمد ذخیره می‌پیوندند

9 ساعت قبل

اوکی‌اکس ای‌آی از بازارچه‌ای برای ایجنت‌ها جهت یافتن کار و کسب درآمد با استیبل‌کوین‌ها رونمایی می‌کند

9 ساعت قبل

استارک‌ویر از نقشه راه پساکوانتومی استارک‌نت رونمایی کرد و آن را «قوی‌ترین» در فضای کریپتو تا به امروز خواند

11 ساعت قبل

سایر مقالات

سهام سیرکل ۱۶ درصد پس از رونمایی از Open USD سقوط کرد؛ تحلیلگران می‌گویند ترس‌ها «بیش از حد بزرگنمایی شده‌اند»

4 ساعت قبل

SEC بازنگری مقررات ETF را پس از اوج‌گیری صندوق‌های رمزارزی و فشار بازارهای پیش‌بینی آغاز کرد

6 ساعت قبل