
DeepReinforce، یک آزمایشگاه تحقیقاتی هوش مصنوعی که قبلاً برای CUDA-L1 و حلقه بهینهسازی عامل کد IterX شناخته شده بود، اواخر هفته گذشته Ornith-1.0 را منتشر کرد—خانوادهای از مدلهای کدنویسی منبعباز که در Hugging Face در چهار اندازه بر اساس تعداد پارامترها در دسترس هستند: ۹ میلیارد، ۳۱ میلیارد، ۳۵ میلیارد ترکیب از متخصصان، و یک مدل پرچمدار ۳۹۷ میلیارد ترکیب از متخصصان، همگی تحت لیسانس MIT و بدون محدودیت منطقهای.
پارامترها اساساً تعداد اهرمها و تنظیماتی هستند که یک مدل میتواند در آموزش خود مدیریت کند. هرچه پارامترها بیشتر باشند، مدل توانایی بیشتری دارد. یک مدل ۹ میلیارد پارامتری کوچک محسوب میشود، برای اجرا روی یک گوشی هوشمند خوب کافی است، اما قادر به انجام هیچ وظیفه استدلالی سنگینی به طور قابل اعتماد نیست. یک مدل ۳۹۷ میلیارد پارامتری بسیار توانمندتر است، اما به محاسبات سنگین نیاز دارد، از نوعی که در سختافزار مصرفکننده در دسترس نیست.
این آزمایشگاه آن را به عنوان "خانوادهای خودبهبود دهنده از مدلهای منبعباز به طور خاص برای وظایف کدنویسی عاملمحور" توصیف میکند. کلمه "عاملمحور" در اینجا اهمیت زیادی دارد.
سلام! 🌺 با Ornith-1.0 آشنا شوید، خانوادهای از مدلهای زبان بزرگ (LLM) منبعباز که در کدنویسی عاملمحور تخصص دارند.
Ornith-1.0 تمام اندازههای پارامتر از جمله ۹B Dense، ۳۱B Dense، ۳۵B MoE، و ۳۹۷B MoE را در بر میگیرد. این مدل به عملکرد پیشرفتهای در میان مدلهای منبعباز با اندازه مشابه دست یافته است…
— Ornith (@ornith_) ۲۵ ژوئن ۲۰۲۶
بیشتر هوش مصنوعی که مردم با آن تعامل دارند مکالمهای است: شما تایپ میکنید، پاسخ میدهد، تبادل پایان مییابد. هوش مصنوعی عاملمحور متفاوت است—وظیفهای را دریافت میکند و برای تکمیل آن بدون راهنمایی انسان در هر مرحله، اقداماتی را انجام میدهد. در زمینه کدنویسی، این بدان معناست که هوش مصنوعی فایلها را میخواند، تستها را اجرا میکند، آنچه را که خطا داشته شناسایی میکند، کد را اصلاح میکند و دوباره تا زمانی که کار تمام شود، حلقه میزند.
بنابراین هوش مصنوعی عاملمحور به این معنی است که بیشتر اوقات نیازی به حضور کسی پشت کیبورد نیست. این تمام ماجراست. این همچنین مسیری است که بیشترین پیشرفت تجاری مرتبط در سال ۲۰۲۶ در آن رخ میدهد—مدلهایی که میتوانند به صورت خودکار ۲۰ مرحله از جریانهای کاری توسعه را اجرا کنند، ارزشمندتر از مدلهایی هستند که در صورت درخواست یک تابع تمیز مینویسند.
با این حال، اکثر مدلهای زبان بزرگ هنوز با در نظر گرفتن بازخورد انسانی طراحی شدهاند.
بیشتر عوامل کدنویسی هوش مصنوعی با یک چارچوب طراحیشده توسط انسان همراه میشوند—مجموعهای ثابت از قوانین برای اینکه عامل چگونه کار خود را ساختاربندی میکند: چه زمانی ابزاری را فراخوانی کند، چگونه خطایی را مدیریت کند، چگونه یک مسئله چند مرحلهای را تجزیه کند. Ornith به جای آن "چارچوب را به عنوان یک شی قابل یادگیری در نظر میگیرد که با سیاست همتکامل مییابد."
ترجمه: به جای اینکه دفترچه راهنمای دیگری را به ارث ببرد، خودش آن را توسعه میدهد.
در طول یادگیری تقویتی، هر مرحله آموزش در دو مرحله اتفاق میافتد. مدل ابتدا وظیفه را میخواند و یک استراتژی اصلاحشده برای نزدیک شدن به آن پیشنهاد میکند. سپس از آن استراتژی برای تولید یک راهحل استفاده میکند.
پاداش حاصل از نتیجه به هر دو مرحله بازمیگردد—بنابراین مدل برای نوشتن استراتژیهای بهتر، نه فقط کد بهتر، بهینه میشود. این کار را هزاران و میلیونها بار انجام دهید، و رویکردهای خاص وظیفه بدون مهندسی انسانی پدیدار میشوند.
DeepReinforce همچنین هک پاداش را جدی میگیرد. اگر مدل بتواند چارچوب آموزشی خود را بنویسد، از لحاظ نظری میتواند چارچوبی بنویسد که تاییدکننده را فریب دهد—با دستکاری یک فایل تا به نظر برسد که وظیفه را بدون انجام واقعی کار تکمیل کرده است. سه لایه دفاعی این امر را مسدود میکنند: محیط و مجموعه تستها غیرقابل تغییر و خارج از دسترس مدل هستند، یک ناظر قطعی هر تلاشی برای دسترسی به مسیرهای محدود یا تغییر اسکریپتهای تأیید را علامتگذاری میکند، و یک مدل قاضی ثابت بر روی تأییدکننده خودکار به عنوان حق وتو عمل میکند.
مدل پرچمدار ۳۹۷ میلیارد پارامتری امتیاز ۸۲.۴ را در SWE-bench Verified کسب میکند—آزمایشی که در آن به هوش مصنوعی یک باگ واقعی از یک مخزن GitHub منبعباز داده میشود و باید آن را بدون دیدن مجموعه تستها رفع کند، و امتیاز آن به عنوان درصد مشکلاتی که با موفقیت حل میکند محاسبه میشود.
این امتیاز از ۸۰.۸ Claude Opus 4.7 و ۸۰.۶ DeepSeek-V4-Pro در همین تست بیشتر است. در Terminal Bench 2.1—که ۸۹ وظیفه در محیطهای ترمینال کانتینری از اشکالزدایی کد ناهمزمان تا رفع آسیبپذیریهای امنیتی را شامل میشود و بر اساس نرخ تکمیل امتیازدهی میشود—۷۷.۵ امتیاز را در مقابل ۷۰.۳ Claude Opus 4.7 کسب کرده است.
با توجه به اینکه نگرانیهایی در مورد آلودگی SWE-bench علناً مطرح شده است—OpenAI اوایل سال جاری استدلال کرد که مدلها با حفظ کردن راهحلهای محک در طول آموزش، امتیازات را بالا میبرند—Ornith همچنین اعدادی را برای SWE-bench Pro گزارش میدهد، نسخهای سختتر که از پایگاههای کد متنوعتر و کمتر لو رفته استفاده میکند و به همان شیوه امتیازدهی میشود. مدل ۳۹۷ میلیارد پارامتری در آن ۶۲.۲ امتیاز کسب میکند. به طور قابل توجهی پایینتر، اما هنوز هم با این حوزه رقابتی است، و هنوز هم بهتر از Deepseek V4 Pro.
مدل ۹ میلیارد پارامتری ممکن است نکته دادهای جالبتری باشد. این مدل ۶۹.۴ امتیاز را در SWE-bench Verified کسب میکند—بالاتر از ۵۲ Gemma 4-31B و رقابتی با ۷۰ Qwen 3.5-35B، با وجود اینکه ۳ تا ۴ برابر کوچکتر است.
Ornith-1.0 به صراحت یک هوش مصنوعی عمومی نیست. مستندات خود مدل میگوید که ممکن است در وظایف خارج از کدنویسی عاملمحور عملکرد ضعیفی داشته باشد. اگر میخواهید هوش مصنوعی سندی را خلاصه کند، به شما در نوشتن رساله دکترا کمک کند، یا یک ایمیل بنویسید، Ornith-1.0 انتخاب اشتباهی است.
این ابزار برای مجموعه مسائل محدودی بهینهسازی شده است: خطوط لوله توسعهدهندگان که در آن یک عامل هوش مصنوعی شرح وظیفه را میپذیرد، در یک مخزن کد یا جلسه ترمینال کار میکند و کارهای چند مرحلهای را بدون دخالت تکمیل میکند. این ابزاری است که برای افرادی ساخته شده است که در حال حاضر زیرساختهای عامل را اداره میکنند—نه برای افرادی که میخواهند تصمیم بگیرند آیا استفاده از هوش مصنوعی ارزش دارد یا خیر.
عنوان "Claude را شکست میدهد" واقعی است اما نیاز به زمینه دارد. همانطور که Decrypt گزارش داد، هر آزمایشگاهی اکنون به دنبال عملکرد در ارزیابیهای کدنویسی عاملمحور است، زیرا تفاوتهای عملکردی مفید در آنجا قرار دارند.
Ornith-1.0-397B در هر دو محک کدنویسی مختلف از Claude Opus 4.7 پیشی میگیرد، اما پرچمدار فعلی Anthropic، Claude Opus 4.8، امتیاز بالاتری دارد. مقایسهای که معتبر است، در دسته منبعباز، با تعداد پارامترهای مشابه، در وظایف عاملمحور خاص کدنویسی است.
برای توسعهدهندگانی که خطوط لوله کدنویسی خودمیزبان، زیرساختهای عاملمحور، یا کارهای مشابه متمرکز بر کدنویسی را میسازند، مدلهای کوچک و متوسط که روی سختافزار لبهای اجرا میشوند ممکن است واقعاً مفید باشند، اما افراد عادی ممکن است بهتر باشد به جای دیگری نگاه کنند.