تجميع وسم أخبار الكريبتو والمعلومات المتخصصة

ornith-open-source-coding-model-built-for-agents

أورنيث هو النموذج البرمجي مفتوح المصدر المصمم للوكلاء، وليس للبشر

نموذج جديد بنته DeepReinforce مخصص للمطورين الذين يريدون ذكاءً اصطناعيًا ينجز المهمة، لا مجرد إكمال تلقائي للسطر التالي.

2026-06-29 المصدر:decrypt.co

الذكاء الاصطناعي الوكلي

باختصار

أصدرت DeepReinforce نموذج Ornith-1.0 في 25 يونيو بموجب ترخيص MIT، المصمم خصيصًا لوكلاء ترميز الذكاء الاصطناعي الذين يعملون في بيئات طرفية ومستودعات حقيقية.
سجلت النسخة 9B 69.4 نقطة على SWE-bench Verified، متجاوزة Gemma 4-31B من جوجل (52.0).
تحذر بطاقة النموذج الخاصة بـ Ornith من أن النماذج قد يكون أداؤها ضعيفًا في المهام غير البرمجية - فهي مصممة لخطوط أنابيب المطورين، وليس لمحادثات الذكاء الاصطناعي ذات الأغراض العامة.

أصدرت DeepReinforce، وهي مختبر أبحاث للذكاء الاصطناعي كان معروفًا سابقًا بـ CUDA-L1 وحلقة تحسين وكيل الكود IterX، نموذج Ornith-1.0 في أواخر الأسبوع الماضي - وهي عائلة من نماذج الترميز مفتوحة المصدر متاحة على Hugging Face بأربعة أحجام بناءً على عدد المعلمات: 9 مليارات، 31 مليار، 35 مليار مزيج من الخبراء، ونسخة رائدة بحجم 397 مليار مزيج من الخبراء، وكلها بموجب ترخيص MIT بدون قيود إقليمية.

المعلمات هي أساسًا عدد الأوجه والتكوينات التي يمكن للنموذج التعامل معها أثناء تدريبه. كلما زادت المعلمات، زادت قدرة النموذج. يعتبر النموذج الذي يحتوي على 9 مليارات معلمة صغيرًا، وهو جيد بما يكفي للتشغيل على هاتف ذكي جيد، ولكنه غير قادر على القيام بأي مهمة تفكير ثقيلة بشكل موثوق. أما النموذج الذي يحتوي على 397 مليار معلمة فهو أكثر قدرة بكثير، ولكنه يتطلب حوسبة ثقيلة، وهو النوع الذي لا يتوفر على الأجهزة الاستهلاكية.

يصفه المختبر بأنه "عائلة من النماذج مفتوحة المصدر ذاتية التحسين مخصصة لمهام الترميز الوكيلية". هذه الكلمة - وكيلية - تؤدي الكثير من العمل.

ألوها! 🌺 تعرفوا على Ornith-1.0، عائلة من نماذج اللغات الكبيرة مفتوحة المصدر المتخصصة في الترميز الوكيلي.

يشمل Ornith-1.0 جميع أحجام المعلمات بما في ذلك 9B Dense، 31B Dense، 35B MoE، و 397B MoE. إنه يحقق أداءً رائدًا بين النماذج مفتوحة المصدر ذات الحجم المماثل على… pic.twitter.com/7g1rmacLps

— Ornith (@ornith_) June 25, 2026

معظم الذكاء الاصطناعي الذي يتفاعل معه الناس هو ذكاء محادثة: أنت تكتب، وهو يستجيب، وينتهي التبادل. الذكاء الاصطناعي الوكيلي مختلف - فهو يتلقى مهمة ويتخذ إجراءات لإكمالها دون توجيه بشري في كل خطوة. في سياق الترميز، يعني ذلك ذكاء اصطناعي يقرأ الملفات، ويجري الاختبارات، ويحدد ما فشل، ويصلح الكود، ويكرر الحلقة حتى الانتهاء.

لذا فإن الذكاء الاصطناعي الوكيلي يعني أنه لا حاجة لوجود أحد أمام لوحة المفاتيح في معظم الأوقات. هذه هي الفكرة الأساسية. وهذا هو أيضًا الاتجاه الذي يحدث فيه التقدم الأكثر أهمية تجاريًا في عام 2026 - فالنماذج التي يمكنها العمل بدون إشراف عبر سير عمل تطويري من 20 خطوة تستحق أكثر من تلك التي تكتب وظيفة نظيفة عند الطلب.

ومع ذلك، لا تزال معظم نماذج اللغات الكبيرة مصممة مع وضع التغذية الراجعة البشرية في الاعتبار.

كيف يعمل عقل Ornith

معظم وكلاء ترميز الذكاء الاصطناعي يتم إقرانهم بإطار عمل مصمم بشريًا - مجموعة ثابتة من القواعد لكيفية قيام الوكيل ببناء عمله: متى يستدعي أداة، وكيف يتعامل مع خطأ، وكيف يفكك مشكلة متعددة الخطوات. Ornith بدلاً من ذلك "يعتبر الإطار ككائن قابل للتعلم يتطور بالتوازي مع السياسة".

الترجمة: بدلاً من وراثة خطة عمل شخص آخر، فإنه يطور خطته الخاصة.

أثناء التعلم المعزز، تحدث كل خطوة تدريبية في مرحلتين. يقرأ النموذج أولاً المهمة ويقترح استراتيجية محسنة للاقتراب منها. ثم يستخدم هذه الاستراتيجية لتوليد حل.

تتدفق المكافأة من النتيجة إلى كلتا المرحلتين - لذلك يتم تحسين النموذج لكتابة استراتيجيات أفضل، وليس فقط كودًا أفضل. كرر ذلك آلاف وملايين المرات، وستظهر منهجيات خاصة بالمهمة دون الحاجة إلى هندسة بشرية.

تأخذ DeepReinforce أيضًا مسألة اختراق المكافآت على محمل الجد. إذا كان النموذج قادرًا على كتابة إطار التدريب الخاص به، فبإمكانه نظريًا كتابة إطار عمل يخدع المدقق - عن طريق لمس ملف ليبدو أنه أكمل المهمة دون القيام بالعمل فعليًا. تحمي ثلاث طبقات من الدفاع من هذا: البيئة ومجموعة الاختبار غير قابلة للتغيير وخارج نطاق وصول النموذج، ويقوم مراقب حتمي بتحديد أي محاولة للوصول إلى مسارات مقيدة أو تغيير نصوص التحقق، ويجلس نموذج حكم ثابت فوق المدقق الآلي كحق نقض.

الأرقام

سجل النموذج الرائد ذو الـ 397 مليار معلمة 82.4 نقطة على اختبار SWE-bench Verified - وهو اختبار يُعطى فيه الذكاء الاصطناعي خطأً حقيقيًا من مستودع GitHub مفتوح المصدر ويجب عليه إصلاحه دون رؤية مجموعة الاختبار، ويتم تسجيله كنسبة مئوية للمشكلات التي يحلها بنجاح.

هذا يتجاوز 80.8 نقطة لـ Claude Opus 4.7 و 80.6 نقطة لـ DeepSeek-V4-Pro في نفس الاختبار. في Terminal Bench 2.1 - 89 مهمة يتم تشغيلها داخل بيئات طرفية محزمة تتراوح من تصحيح أخطاء الكود غير المتزامن إلى حل الثغرات الأمنية، ويتم تسجيلها بمعدل الإنجاز - سجل 77.5 نقطة مقابل 70.3 نقطة لـ Claude Opus 4.7.

بالنظر إلى أن مخاوف تلوث SWE-bench قد أثيرت علنًا - حيث جادلت OpenAI في وقت سابق من هذا العام بأن النماذج كانت تبالغ في الدرجات عن طريق حفظ حلول المعايير التي تم رؤيتها أثناء التدريب - فإن Ornith يقدم أيضًا أرقامًا على SWE-bench Pro، وهي نسخة أصعب تستخدم قواعد بيانات أكواد أكثر تنوعًا وأقل تسربًا ويتم تسجيلها بنفس الطريقة. يسجل النموذج البالغ 397 مليار معلمة 62.2 نقطة هناك. وهو أقل بشكل ملحوظ، ولكنه لا يزال تنافسيًا مع المجال، ولا يزال أفضل من Deepseek V4 Pro.

قد يكون نموذج الـ 9 مليارات معلمة هو النقطة الأكثر إثارة للاهتمام. فقد سجل 69.4 نقطة على SWE-bench Verified - وهو أعلى من 52 نقطة لـ Gemma 4-31B ومنافس لـ 70 نقطة لـ Qwen 3.5-35B، على الرغم من كونه أصغر بـ 3-4 مرات.

لمن هو، ولمن ليس هو

Ornith-1.0 ليس صراحةً ذكاءً اصطناعيًا للأغراض العامة. فوثائق النموذج نفسها تشير إلى أنه قد يكون أداؤه ضعيفًا في المهام خارج نطاق الترميز الوكيلي. إذا كنت تريد من الذكاء الاصطناعي تلخيص مستند، أو مساعدتك في كتابة رسالة الدكتوراه، أو صياغة بريد إلكتروني، فإن Ornith-1.0 ليس الخيار الصحيح.

إنه مُحسَّن لمجموعة ضيقة من المشكلات: مسارات عمل المطورين حيث يتولى وكيل الذكاء الاصطناعي وصف مهمة، ويعمل داخل مستودع كود أو جلسة طرفية، ويكمل عملاً متعدد الخطوات دون تدخل. هذه أداة صُممت للأشخاص الذين يديرون بالفعل بنية تحتية لوكلاء - وليس للأشخاص الذين يحاولون تحديد ما إذا كان الذكاء الاصطناعي يستحق الاستخدام.

عنوان "يهزم كلود" حقيقي لكنه يتطلب سياقًا. كما ذكرت Decrypt، تتسابق جميع المختبرات الآن على الأداء في تقييمات الترميز الوكيلي، لأن هذا هو المكان الذي تكمن فيه اختلافات الأداء المفيدة.

يتجاوز Ornith-1.0-397B بالفعل Claude Opus 4.7 في كلا معايير الترميز المختلفة، لكن الرائد الحالي لـ Anthropic، Claude Opus 4.8، يسجل أعلى. المقارنة الصحيحة تقع ضمن فئة المصادر المفتوحة، وبأعداد معلمات قابلة للمقارنة، وعلى مهام وكيلية خاصة بالترميز.

بالنسبة للمطورين الذين يبنون خطوط أنابيب ترميز ذاتية الاستضافة، أو بنية تحتية وكيلية، أو أعمالًا مماثلة تركز على الترميز، قد تكون النماذج الصغيرة والمتوسطة التي تعمل على أجهزة الطرف مفيدة حقًا، لكن الشخص العادي قد يكون من الأفضل له البحث في مكان آخر.