الرئيسية الذكاء الاصطناعي جامعة محمد بن زايد للذكاء الاصطناعي تطلق الإصدار الثاني من نموذج التفكير السيادي K2 Think

جامعة محمد بن زايد للذكاء الاصطناعي تطلق الإصدار الثاني من نموذج التفكير السيادي K2 Think

إطلاق نموذج تفكيرٍ سياديّ بالكامل مفتوح المصدر يعزّز قدرات الاستنتاج العميق ويُسهّل تطبيق الذكاء الاصطناعي في تحليل البيانات وحل المشكلات المعقدة

بواسطة فريق عربية.Inc
images header

أعلن معهد نماذج الأساس في جامعة محمد بن زايد للذكاء الاصطناعي في أبوظبي (MBZUAI) عن إطلاق الإصدار الثاني من نموذج التفكير السيادي K2 Think، وهو نموذج للتفكير مفتوح المصدر يحتوي على 70 مليار معامل، ويصفه المعهد بأنه سيادي بالكامل، يغطي جميع مراحل إعداد البيانات والتدريب المسبق وما بعد التدريب. ويشكّل هذا الإصدار أول نموذج تفكير سيادي متكامل يطوره المعهد، ويستند إلى النماذج السابقة K2 Think و K2 V2 Instruct.

بُني نموذج K2 Think V2 على أساس K2 V2 Instruct الصادر في 2025، وهو أقوى نموذج مفتوح المصدر متبع للتعليمات، ويصمّم كنظام عام للتفكير، ويظهر أداء محسّنًا عبر اختبارات معقدة مثل AIME2025، و Harvard-MIT Mathematics Tournament، و Graduate-Level Google-Proof Q&A Diamond، و IFBench. ووفقاً للمعهد، ينافس النموذج النماذج المفتوحة ذات الحجم المماثل، مع تقديم قدرة أكبر على التفكير طويل السياق وتقليل معدل الهلاوس، مؤكّداً الجهد المستمر لتقليص الفجوة بين أنظمة الذكاء الاصطناعي المجتمعية القابلة لإعادة الإنتاج والمنصات الملكية.

يعتمد تطوير النموذج على استراتيجية التدريب في K2 V2، المصممة لدعم التعلم التعزيزي مع مكافآت قابلة للتحقق، من خلال مرحلة ضبط دقيقة تجمع بين القدرة على اتباع التعليمات والتفكير وفق مستويات محددة. ولـ K2 Think V2 استُخدم أعلى مستوى تفكير لتمكين سلسلة استنتاج طويلة، مستفيداً من قدرات السياق الطويل في K2 V2، مع تطبيق عملية تدريب من مرحلتين للتعلم التعزيزي مع مكافآت قابلة للتحقق.

بعد الإصدارات الأولية لنموذج K2 Think في سبتمبر 2025 و K2 V2 في ديسمبر 2025، أدخل المعهد تحسينات على مجموعة البيانات الملكيّة Guru، شملت توسيع التغطية لمجالات إضافية، وتطبيق فلترة حسب مستوى الصعوبة باستخدام K2 V2، وتنقية البيانات من تأثيرات التقييم الأساسية.

ركز اختيار البيانات لـ K2 Think V2 على الرياضيات والبرمجة وعلوم STEM، مع إزالة التكرار بعناية من البيانات المستخدمة في K2 V2 Instruct وتنقيتها بالكامل من أي تقييمات لاحقة. وتم إصدار مجموعة البيانات المحدّثة علنًا باسم Guru v1.5 على منصة Hugging Face مفتوحة المصدر. وتبع تدريب نموذج K2 Think V2 العملية نفسها المستخدمة للإصدار السابق 32B، مع تطبيق تحسين سياسة نسبية جماعية على مرحلتين. وقد نُشرت جميع أكواد التدريب علناً عبر مستودع Reasoning360 مفتوح المصدر، مع تعديلات على الخوارزمية، مثل إزالة خسائر Kullback-Leibler و entropy، وتطبيق قص غير متماثل لنسبة السياسة مع الحد الأعلى 0.28.

أدخل الفريق تعديلين إضافيين مستندين إلى تحليل تقرير K2 V2 الفني، حيث جرى التدريب بدرجة حرارة 1.2 لتحقيق التوازن بين استقرار الإخراج وتنوعه، وتم التدريب بالكامل على السياسة دون micro-batching لتجنب تصحيحات off-policy المرتبطة بعدم استقرار تحسين السياسة النسبية الجماعية.

في المرحلة الأولى من التعلم التعزيزي مع مكافآت قابلة للتحقق، حُدد أقصى طول للاستجابة عند 32,000 توكن، واستمر التدريب حوالي 200 خطوة، بينما في المرحلة الثانية تم توسيع طول السياق إلى 64,000 توكن واستمر التدريب 50 خطوة إضافية بنفس إعدادات المعلمات الفائقة. كما استفاد النموذج من نقطة فحص K2 V2 Instruct، محققاً تحسناً كبيراً مقارنة بالإصدار الأصلي 32B، إذ أظهرت التقييمات الداخلية أداء أقوى في التفكير الرياضي والعلمي والبرمجي، مع الحفاظ على قدرة اتباع التعليمات الموروثة من K2 V2.

وأظهرت المقارنات بين إصدارات K2 Think و K2 V2 أن تدريب K2 V2 قرب الأداء من نموذج K2 Think الأصلي، مع تحقيق مكاسب إضافية بعد مرحلة ما بعد التدريب. كما قامت شركة Artificial Analysis الأمريكية بتقييم النموذج، مشيرة إلى تحسن بمقدار أربع نقاط بعد التعلم التعزيزي، نتيجة انخفاض معدل الهلوسات من 89% إلى 52% وتحسن التفكير طويل السياق من 33% إلى 53%، مما يعكس تطبيقات عملية في تحليل معلومات ضخمة مثل التقارير المالية والمستندات المتعددة.

وصنّف مؤشر الانفتاح الخاص بـ Artificial Analysis نموذج K2 Think V2 في صدارة النماذج المفتوحة إلى جانب K2 V2 و Olmo 3، مع تصنيفه على حدود Pareto لنماذج التفكير مفتوحة الأوزان عند النظر إلى الذكاء والانفتاح. وأشار المعهد إلى إمكانيات قوية للمستقبل في استخدام الأدوات والمهام الوكيلة. وقبل الإصدار، خضع النموذج لتقييمات شاملة للأمان باستخدام إطار libra-eval، شملت مقاييس السلامة العامة وتقييمات محددة ثقافياً وإقليمياً، وأظهرت النتائج درجات قريبة من الكمال وتحسناً عن الإصدارات السابقة في تقليل رفض الاستفسارات البريئة.

وأشار المعهد إلى أن K2 Think V2 يعكس فهماً دلالياً أعمق، ويمكنه الرد بأمان على أسئلة قصوى ولكن غير ضارة، ورفض الطلبات غير الآمنة بشكل مناسب. وعلى الرغم من وجود مجال لتحسين الأداء في السلامة الفيزيائية وحماية البيانات الشخصية، أظهر النموذج مكاسب كبيرة في السلامة التقنية، مع رفض 89.5% من طلبات الاستغلال، أي أكثر من 66% تحسناً مقارنة بالإصدارات السابقة، مع الحفاظ على تعليمات نظام السلامة عبر سياقات طويلة.

وأكد المعهد أن البحث المستمر يظهر فوائد ملموسة للتعلم التعزيزي بعد مرحلة ما بعد التدريب، مع التركيز على تعزيز التفكير، واستخدام الأدوات، والقدرات الوكيلة، مدعومًا بمواصلة جهود تنقية البيانات، مع توقع تحديثات إضافية خلال 2026.

تابعونا على قناتنا على واتس آب لآخر أخبار الستارت أب والأعمال
زمن القراءة: 4 دقائق قراءة
آخر تحديث:
تاريخ النشر: