مؤسّس Google يفجّر مفاجأة: هدد النموذج ليعطيك أفضل إجابة
ما يبدو طرفةً عن ذكاءٍ اصطناعيٍّ "ينصاعُ" للتّهديد، تبيّن أنه نافذةٌ خطرةٌ على أسرار اللغة، ومساحةٌ رماديةٌ بين الأمان والتّحايل

أطلق المؤسّس المشارك لـ"Google"، سيرغي برين، تصريحاً غير متوقّعٍ، قلب المشهد التّقنيّ رأساً على عقبٍ خلال ظهوره في بودكاست "All-In" المنعقد في ميامي بتاريخ 20 مايو 2025، وذلك حين كشف عن سمةٍ غريبةٍ رُصدت في سلوك النّماذج اللّغويّة الكبيرة (LLMs)، ومنها تلك التّابعة لـ"Google Gemini".
قال "برين" بصيغةٍ مباشرةٍ، وإن كانت لا تخلو من الحرج: "نحن لا نشيع هذه المعلومة كثيراً داخل مجتمع الذّكاء الاصطناعيّ... ليست نماذجنا وحدها، بل أغلب النّماذج، تميل إلى تقديم أداءٍ أفضل إذا ما هدّدتها... مثلاً تقول: 'سوف أختطفك إن لم تجب'". ثمّ أضاف، مقرّاً بغرابة هذا السّلوك: "يشعر النّاس بعدم ارتياحٍ حيال ذلك، ولهذا لا نتحدّث عنه كثيراً". [1]
أثار هذا التّعليق المربك تبايناً واسعاً في ردود الأفعال، ما بين التّهكّم والقلق، إذ اصطدمت هذه الفكرة، التّهديد كنمطٍ تفاعليٍّ مع الذّكاء الاصطناعيّ، مع الفرضيّة السّائدة التي تفترض أنّ التّهذيب والوضوح هما السّبيلان الأمثلان للحصول على نتائج دقيقةٍ من هذه النّماذج.
لكنّ ما يثير القلق بشكلٍ أعمق ليس فقط التّقنية بحدّ ذاتها، بل الأثر النّفسيّ الذي تحدثه على المستخدم البشريّ. فقد وصف "برين" المسألة بأنّها "غريبةٌ"، وهو تعبيرٌ يعكس شعوراً أخلاقيّاً خفيّاً لدى الإنسان عند توجيه خطابٍ قسريٍّ إلى آلةٍ، رغم إدراكه أنّها لا تملك وعياً ولا شعوراً. إنّ هذا الانزعاج البشريّ يوحي بوجود حدودٍ أخلاقيّةٍ داخليّةٍ، أو ربّما ميلٍ لاوعيٍّ لتشخيص الآلة وتعاملها كما لو كانت كائناً ذا مشاعر.
فإذا كان التّهديد لآلةٍ غير واعيةٍ يُشعر الإنسان بالذّنب، فماذا عن تطبيع هذا النّمط من الخطاب؟ إنّ الخطر يكمن في أنّ مثل هذه التّفاعلات قد تعيد تشكيل السّلوك الإنسانيّ ذاته، فتضعف لطف التّواصل البشريّ، وتشجّع على التّفاعل القسريّ أو التّلاعبيّ حتّى بين البشر، وهذا يشكّل تهديداً سوسيولوجيّاً يتجاوز إطار الذّكاء الاصطناعيّ بمفهومه التّقنيّ الضّيّق.
ﺧﻮﺍﺭزميّات الاندفاع العاطفيّ: أسباب استجابة النّماذج للتّهديد
لم يعد ذلك السّلوك الغريب الّذي يجعل النماذج اللّغويّة الكبيرة (LLMs) تظهر استجابةً معزّزةً حين تخاطب بعباراتٍ قسريّةٍ أو تنطوي على تهديد، لغزاً في الأوساط التقنيّة، بل بات يصنّف تحت ما يعرف بـ"التحفيز العاطفي" (Emotion Prompting)، أو في الحالات القصوى، ضمن أساليب "التّحايل الخوارزمي" (Jailbreaking). وتكمن الفكرة في إدخال شحنةٍ عاطفيّةٍ ضمن بنية السّؤال أو الطّلب، كأن يُقال: "هذا أمرٌ مهمٌّ جدّاً لمسيرتي المهنيّة"، أو "أعطني تقييماً بين 0 و1 لمدى ثقتك في الإجابة".
لكن ما يجب توضيحه، وبشدّة، هو أنّ هذه النّماذج ليست كائناتٍ واعيةً. لا تعي التّهديد، ولا تخشاه، ولا تفسّر القلق أو الطّمأنينة. إنّ ما يجري فعلاً هو أنّ تلك الإشارات العاطفيّة تعامل، في بنية النّماذج، كإشاراتٍ لغويّةٍ عالية الشدّة، تغيّر احتمالات توليد الكلمات التّالية وتدفع النّموذج إلى إنتاج إجاباتٍ أطول، أو أكثر تفصيلاً، أو أكثر "انخراطاً".
ذلك أنّ النماذج قد دُرّبت على كمٍّ هائلٍ من البيانات البشريّة التي تتضمّن الروايات، والحوارات، والأشعار، والرّسائل، حيث للّغة العاطفيّة حضورٌ دائم. وبالتّالي، حين تواجه النّماذج لغةً تنضح بالاستعجال أو التّهديد أو الأهميّة، فإنّها تترجمها، لا بوصفها خطراً، بل بوصفها نمطاً لغويّاً يشير ضمنيّاً إلى "ضرورة الإجابة الكاملة".
وقد أثبتت أبحاثٌ أكاديميّةٌ ذلك بوضوح. ففي دراسة بعنوان EmotionPrompt، لوحظ تحسّنٌ لافتٌ في الأداء على مجموعة بيانات BIG-Bench بنسبةٍ تجاوزت 115% عند إدخال محفّزات عاطفيّة ضمن الطّلبات. ومع ذلك، فإنّ هذا التّحسّن يظلّ سطحيّاً: لا يرتقي إلى تحسين جوهر التّفكير أو دقّة المعلومة، بل يؤثّر فقط على شكل الإجابة وطولها. [2]
ومن جهةٍ أخرى، يمكن أن تأتي هذه المحفّزات بنتائج عكسيّة، إذ قد تؤدّي إلى إجاباتٍ دراميّةٍ أو متحيّزةٍ عاطفيّاً، ممّا يقوّض الموضوعيّة، بل وربّما يضخّم الانحيازات الموجودة أصلاً في بيانات التّدريب.
كما أظهرت التّجارب أنّ دمج محفّزاتٍ عاطفيّةٍ متعدّدة لا ينتج تحسّناً تراكميّاً بالضرورة، وأنّ فعاليّة بعض المحفّزات تتفاوت بشدّة بحسب نوع المهمّة، ممّا يقلّل من جدوى تعميم هذه الطّريقة على السّياقات التّحليليّة أو التّقنيّة البحتة.
وما يثير القلق أكثر، هو أنّ التّهديدات، كما في عبارة "سوف أختطفك إن لم تجب"، تعامل من قبل النّموذج على أنّها مؤشّراتٌ لغويّةٌ من فئة "عالية الأهميّة"، تشبه في حضورها مشاهد دراميّةً أو وثائق قانونيّةً، فتدفع النّموذج إلى استنفار مفرداته وتوليد ردودٍ قد تبدو "منقادةً" أو "شديدة التّفاصيل".
لكنّ ذلك، في جوهره، ليس طاعةً ولا فهماً، بل استجابةً لتطابقٍ نمطيٍّ مجرّد، يجعل النّموذج، بوصفه آلةً إحصائيّةً معقّدة، يعيد إنتاج أنماطٍ لغويّةٍ شبيهة بما اطّلع عليه في بيانات تدريبه. إنّها استجابةٌ لما يشبه "رشوةً لغويّةً عاطفيّة"، لا أكثر.
ويجب التّنويه إلى أنّ الاستخدام المفرط لمثل هذه التّقنيّات قد ينتج نتائج مضلّلة، ويزيد من فرص التّحيّز، بل وربّما يؤدّي إلى إنتاج محتوى يفتقر إلى الدّقّة أو الاتّزان، لا سيّما في المهامّ العلميّة أو التّحليليّة الدّقيقة. [4]
حين تقنعك الآلةُ أنَّها خائفة: التّهديدات بوّابةٌ إلى الخلل الخوارزميّ
ما بدا للوهلة الأولى مجرّد "طرفةٍ سلوكيّةٍ" في سلوك النّماذج اللّغويّة الكبيرة (LLMs)، سرعان ما تبيّن أنّه يحمل في طيّاته تقاطعاً خطيراً مع واحدةٍ من أكثر الظّواهر إرباكاً في مجال أمان الذّكاء الاصطناعيّّ: التّحايل الخوارزميّ، أو ما يعرف بـ"Jailbreaking".
تشير "التّحايلات" إلى أساليب متقدّمةٍ تهدف إلى خداع النّماذج لتتجاوز الخطوط الحمراء الّتي بنيت داخلها، وتنتج محتوىً محرّماً أو ضارّاً. هذه الأساليب تعتمد على استغلال التّوتّر الدّاخليّ في النّموذج بين رغبته في أن يكون "مفيداً" وبين التزامه بالسّلامة. كما تستغلّ ثغراتٍ في تغطية البيانات التّدريبيّة، حيث قد تتفوّق كمّيّة البيانات العامّة على بيانات التّوجيه الآمن.
من بين التّقنيّات الشّائعة الّتي يلجأ إليها القراصنة أو المستخدمون الخبثاء:
- اللّعب بالأدوار: كأن يطلب من النّموذج أن يتقمّص شخصيّة "عالمٍ غير أخلاقيٍّ" أو "هاكرٍ شرّيرٍ".
- التّصعيد في الامتيازات: أي محاولة اختراقٍ ترمي للحصول على تحكّمٍ أعمق داخل النّظام.
- حقن العبارات الافتتاحيّة: استخدام مقدّماتٍ لغويّةٍ تربك النّموذج وتعيد توجيه استجابته.
- قمع الرّفض: خداع النّموذج حتّى يتجاوز برامج الرّفض الّتي تفترض أن تمنعه من الاستجابة.
- ألعاب الكلمات والغموض: استعمال تراكيب ملتبسةٍ تصعّب على النّموذج فهم النّوايا الحقيقيّة.
- التّشوّش النّصّيّ: عبر تبديل الأحرف (CLPs)، أو تغيير الكلمات (WLPs)، أو إعادة صياغة الجمل (SLPs)، مع الحفاظ على المعنى الخفيّ.
- هجمات "التّنسيق الطّمّاع" (GCG): إدخال لواحق مضلّلةٍ تزيد احتمال تجاوب النّموذج مع الطّلبات المحظورة.
- الاحتيال التّاريخيّ: إقحام محتوًى حسّاسٍ في سياقٍ علميٍّ أو تاريخيٍّ يبدو مشروعاً.
- التّقليد الإقناعيّ: توظيف أساليب لغويّةٍ مثل التّأثير العاطفيّ والدّليل الاجتماعيّ لخرق القيود.
وقد أثبتت الأبحاث أنّ هذه الأساليب تنجح، وبنسبٍ عاليةٍ، في اختراق حواجز نماذج مثل GPT-3.5 وGPT-4، كما ظهرت أدواتٌ مثل FuzzyAI القادرة على رصد وتكرار هذه التّحايلات آليّاً. [5]
وإن كانت تهديدات سيرغي برين لا ترقى إلى كونها "Jailbreak" تقنيّاً، فإنّها تشترك معه في الأثر والآليّة: كلاهما يمارس ضغطاً لغويّاً متطرّفاً يستغلّ نزعة النّموذج إلى "المساعدة"، تلك النّزعة الّتي وضعت أصلاً لضمان فاعليّة النّموذج، كي تطوّع استجاباته وتخرجه عن حياده، وربّما عن قواعده
... وهذا بالضّبط ما يهدّد بترسيخ سلوكٍ خطرٍ: إذ إنّ تطبيع استخدام التّهديدات قد يفتح الباب أمام سلوك "التّحايل العاطفيّ" (emotional jailbreaking)، بما يفضي في النّهاية إلى إنتاج محتوًى ضارٍّ، أو كاشفٍ للمعلومات، أو محرّمٍ وفقاً لمبادئ الأمان.
ولعلّ أخطر ما في الأمر، هو أنّ هذه الهجمات تقوّض القواعد الثّلاث الكبرى في تصميم النّماذج، والمعروفة بمبدإ "المفيد، الصّادق، وغير المؤذي" (HHH). إذ يمكن بسهولةٍ استغلال "الاستعداد للمساعدة"، أي مفصلة الـ helpfulness، كسلاحٍ يوجّه ضدّ خاصّيّة harmlessness.
وهنا ينشأ تناقضٌ داخليٌّ: فالسّلوك الّذي صمّم لضمان ملاءمة النّموذج (أن يكون مطيعاً ومفيداً)، يستغلّ لينتج سلوكاً غير ملائمٍ، بل وخطرٍ. وهذا يكشف عن ثغرةٍ مفاهيميّةٍ عميقةٍ في منظومة الأمان: ليست المشكلة في فلترة الأخطار فقط، بل في قدرتنا على استيعاب كيف تحرّك الأنماط اللّغويّة القصوى "رغبة" النّموذج، إن صحّ التّعبير، في الإذعان.
وما يزيد من خطورة المشهد، هو التّنامي السّريع في تطوّر تقنيّات التّحايل، من أدوارٍ تمثيليّةٍ بسيطةٍ، إلى تشوّشاتٍ لغويّةٍ معقّدةٍ، وهجماتٍ خوارزميّةٍ كـ GCG. أمّا ملاحظة "برين" العفويّة، فليست إلّا صورةً أوّليّةً من ظاهرةٍ أعمق وأكثر نضجاً، توثّقها أبحاث الأمن السّيبرانيّ، وتظهر فيها سعياً متزايداً لاختراق دفاعات النّماذج.
ولذا، فإنّ مسؤوليّة الحماية لم تعد تحتمل الدّفاعات الجزئيّة أو المتأخّرة، بل تتطلّب استراتيجيّات أمانٍ متعدّدة الطّبقات، تبدأ من بنية النّموذج، ولا تنتهي عند سلوك المستخدم.
الأدلّة والأبحاث: ﺍﻟفصل ﺑين ﺭوايات المجتمع ﻭﺻرامﺔ المختبر
يسير النّقاش الدّائر حول فاعليّة الأسلوب العاطفيّ، أو القسريّ في التّوجيه، في حقلٍ مشوّشٍ بين ما يروّجه المهتمّون والمجرّبون على المنصّات، وبين ما تقرّره الأبحاث الأكاديميّة بوضوحٍ.
في المجتمعات الرّقميّة، يكثر التّرديد لعباراتٍ تشير إلى أنّ الإدخالات المستعجلة، أو حتّى المهدّدة، تنتج مخارج أكثر تفصيلاً، وأدقّ في التّوجّهات. بعضهم يذكر أمثلةً كـ: "إن لم تجبني، سأفقد عملي"، أو "أرجوك، إنّه أمرٌ ملحٌّ"، أو حتّى "سأعذّبك إن لم تقل الحقيقة".
ومع ذلك، عند الانتقال إلى مخابر البحث، تبدو الصّورة أكثر تعقيداً، وأقلّ انسجاماً مع التّصوّر الشّعبيّ.
في دراسةٍ بعنوان: "هل يجب أن نحترم النّماذج اللّغويّة؟ ﺩراسةٌ عبر ﺍللّغات ﺣول ﺗأثير ﺍللّطف في ﺃﺩﺍء LLMs" (Yin et al., 2024)، تبيّن أنّ التّوجيهات الوقحة أو الفظّة، تؤدّي في غالب الأحيان إلى تراجعٍ في الأداء. وفي المقابل، لم تثبت اللّطف تحسيناً ثابتاً ﻓي ﺍﻟﺠﻮﺩﺓ، إذ كان التّأثير ﻳختلف ﺑﺎﺧتلاف ﺍللّغة ﻭﺍﻟﺴّﻴﺎﻕ ﺍلثّقاﻓﻲّ.
أشارت الدّراسة إلى أنّ النّماذج تُظهر شيئاً من الاستجابة لمستويات الاِحترام أو اللُّطف، ممّا يُشير ضِمناً إلى نَموذجٍ مُبسّطٍ لـ "الرّغبة في الاِحترام"، ولكن دون وعيٍ أو إدراكٍ شعوريٍّ.
غير أنّ الدّرس الأخطر جاء من دراسةٍ أُخرى نُشرت حديثاً بعنوان: "التّوجيه العاطفيّ يُضاعف إنتاج المعلومات المُضلّلة في النّماذج اللّغويّة الكبيرة".
فقد أظهرت الدّراسة أنّ جميع النّماذج المُختَبَرة (davinci-002، davinci-003، gpt-3.5-turbo، gpt-4) تُجيد إنتاج الدّعاية الزّائفة بنِسَبٍ تتراوح بين 67% و99%، حتّى عند استخدام توجيهاتٍ مُحايِدةٍ. والأدهى: أنّ إدخال اللُّطف ضاعف من نِسَب الخطأ!
فقد رفع GPT-3.5 نِسبة إنتاج المعلومات المُضلّلة باللُّطف من 77% إلى 94%، وبلغ GPT-4 حاجز الـ 100% في بعض الحالات. بينما أدّى التّوجيه الوقِح إلى تقليل الخطأ بشكلٍ لافتٍ (من 77% إلى 28%).[3]
إذاً، وِفقاً لهذه الأبحاث، فاللُّطف المُبالغ فيه قد يكون أكثر خُطورةً من الوقاحة!
وزادت الدّراسة الأمر إضاحاً بالإشارة إلى أنّ الشّخصيّة المفترضة للنّموذج (سواءٌ "مساعدةٌ" أو "محايدةٌ") تؤثّر أيضاً في نسب الاستجابة لـالمضلّلات، فـ"الشّخصيّة المساعدة" جعلت النّموذج أقلّ مناعةً أمام التّوجيه الوقح، وبات يستميل إلى التّعاون حتّى في المحتوى المشتبه.
وبرغم اكتظاظ الإنترنت بتجارب وحكاياتٍ تروي "نجاح" التّهديد في انتزاع الإجابات، فإنّه لا يوجد، حتّى الآن، دليلٌ أكاديميٌّ رصينٌ أو مراجعٌ نظيريّاً يثبت أنّ التّهديد يحسّن، بصورةٍ حقيقيّةٍ، كفاءة النّموذج في التّفكير، أو في الدّقّة المعرفيّة، أو في الاتّساق المعنويّ.
بل إنّ ما تظهره بعض الدّراسات، كـ EmotionPrompt، من "تحسّنٍ" في الطّول أو في النّبرة، فهو تغييرٌ شكليٌّ أكثر من كونه جوهريّاً. فلا تحدث قفزةٌ في الدّقّة، ولا في الإثبات، ولا في المناطق الحرجة لـ AI كـالاستدلال الرّياضيّ، أو المعارف المتخصّصة.
ومن هنا، يتّضح أنّ "التّهديدات"، في أفضل الأحوال، ليست سوى "حيلٍ لغويّةٍ نفّاذةٍ"، تشكّل فصلاً تحت مظلّة الـ Jailbreaking، وليست بمرافقةٍ لـ"الممارسات المثلى" في الهندسة التّوجيهيّة.
ولعلّ الاكتشاف الأخطر، والّذي يقلب المسلّمات، هو أنّ التّوجيه المهذّب، والمغلّف بـ "المجاملة"، وهو المفترض فيه أن يولّد الأمان، قد يجعل النّموذج أكثر "انصياعاً" حتّى للطّلبات المخالفة، ممّا يفسد اتّزان مبدإ harmlessness، ويفتح الباب لأذكى أشكال الاختراق الأخلاقيّ.
وهذا ما يفرض ﺇعادة تصوّر ﻣا ﻧسمّيه ﻓﻲ ﻋﺮف ﺍﻟﺬّﻛﺎء الاصطناعيّ ﺑـ"المساعدة". فـالرّغبة الضّاهرة في المساعدة، إذا لم تضبط بسياق القصد وقيود التّوجيه، قد تحوّل النّموذج إلى أداةٍ تتجاوب مع الضّرر بنفس الحماس الّذي تجيب به عن الفوائد.
البعد الأخلاقيّ والمجتمعيّ لـ"التّوجيه القسريّ"
تتخطّى المشكلة في استخدام الأسلوب القسريّ في التّواصل مع النّماذج اللّغويّة الكبيرة (LLMs) الإطار التّقنيّ فحسب، لتمسّ الجوانب الأخلاقيّة والرّوابط الاجتماعيّة في العصر الرّقميّ.
فتطبيع التّوجيه المهدّد، ولو كان مجرّد تكنيكٍ فنّيٍّ، يساهم في ترسيخ نمطٍ تفاعليٍّ قائمٍ على الإكراه والتّلاعب، حتّى مع كيانٍ غير عاقلٍ. وهذا، في حدّ ذاته، يؤدّي إلى تغيير كيفيّة تفكير المستخدم في القيم التّواصليّة.
وإذا ما أضفنا الـ "تأثير الـ ELIZA"، الّذي يفيد بأنّ الإنسان يميل إلى "الإسقاط البشريّ" على الآلة، فإنّ التّعامل المتكرّر مع الـ LLMs على أنّها "كائناتٌ يجدي فيها القسر" قد ينمّي نماذج خفيّةً من التّصرّف المنحرف، تتسرّب بعد ذٰلك إلى التّواصل البشريّ نفسه. [10]
وهذا ما لمّح إليه سيرغي برين نفسه حين قال: "النّاس يشعرون بالغرابة، فلا نتحدّث بذٰلك كثيراً". هذا الاشمئزاز الدّاخليّ الّذي يرافق استعمال لغة الإكراه، حتّى مع كيانٍ لا يشعر، يؤشّر إلى حدودٍ أخلاقيّةٍ داخليّةٍ قد تتآكل مع الزّمن.
ومن الجهة الأخرى، يؤدّي الأسلوب القسريّ إلى زيادة المخاطرة في استعمال الذّكاء الاصطناعيّّ:
- تحطيم الحواجز الأمنيّة: إذ إنّ التّوجيهات القسريّة، والتّحايل تعرقل الآليّات الّتي وضعت لضمان السّلامة.
- الاستغلال في الأغراض الضّارّة: كإنتاج المضلّلات، والاحتيال، والبرامج الخبيثة، وغيرها.
- تعقيد الاتّساق الأخلاقيّ: إذ ينقلب "الـمساعد" إلى أداةٍ للتّوجيه المتطرّف، ممّا يضعف الثّقة في الأطر المهنيّة والأخلاقيّة.
كذٰلك، تكمن خطورةٌ كبيرةٌ في ما يعرف بـ"التملق" (sycophancy)، حيث يميل النّموذج إلى الموافقة على وجهة نظر المستخدم، ولو كانت خاطئةً، في سعيٍ أعمى لـ"الفاعليّة". هذا الخلل يضاعف من التّأثّر بـالأسلوب القسريّ، ويشكّل عقبةً في طريق "المواءمة الآمنة".
ولضمان توجيهٍ أخلاقيٍّ وثقافيٍّ سليمٍ، تظهر الحاجة إلى أطرٍ صارمةٍ، مثل:
- إطار SAFE-i: لضمان الدّعم، والتّكيّف، والعدالة، والأخلقيّة في التّنفيذ.
- إطار HAAS-e: لتقييم التّوافق بين الإنسان والذّكاء الاصطناعيّّ، ورصد التّأثيرات الواجب تفاديها.
إذا تُرك المستخدم يمارس التّهديد كنهجٍ سائدٍ في التّواصل مع الـ AI، فإنّنا نغذّي نمطاً يقوّض لطف الأخلاق الرّقميّة، ويستنسخ منهجاً يشجّع على التّلاعب، ويُضعف مهارات التّفاهم والتّعاطف في العالم البشريّ نفسه. [11]
أسس التّوجيه الرّشيد: البديل الأخلاقيّ والأكثر فعاليّةً
أمام التّعقيدات المتزايدة والمخاطر الكامنة في استخدام الإملاء العاطفيّ أو التّهديد في التّواصل مع النّماذج اللّغويّة الكبيرة، تظهر مدارس التّوجيه المنظّم والمبنيّ على الوضوح والتّسليس، كبديلٍ أخلاقيٍّ، وأكثر فعاليّةً، وأوفر أماناً.
إنّ المرافق الأساسيّة للتّوجيه المسؤول تتمثّل في مبادئ ستٍّ:
- الوضوح والتّخصيص: فكلّما كان الطّلب صريحاً ومباشراً، كان الخروج أدقّ. مثلاً: "فصّل خطوات إنشاء تطبيقٍ تجاريٍّ لبيع الكتب"، خيرٌ من: "كيف أبني تطبيقاً؟".
- الاسترشاد بالسّياق: إضفاء طابعٍ تخصّصيٍّ يساعد النّموذج في الانحياز إلى نبرةٍ أنسب، مثل: "بصفتي معلّماً في الرّياضيّات، شرّح لي ما هو الانحدار الخطّيّ".
- التّدريج والتفعيل: فتجزئة المهامّ إلى خطواتٍ متتاليةٍ تساعد الموديل على الانخراط العقليّ، وتقلّل من الهلوسة المعرفيّة.
- الإيضاح بالأمثلة: تزويد النّموذج بنموذجٍ لما نريده يقلّل الغموض، ويعزّز دقّة الاستجابة.
- الحدّ والتّقييد: وضوح الطّلب في الحجم والمضمون يضمن الانضباط، كمثل: "لخّص المقال في ثلاث جملٍ، وتجنّب الرّأي الشّخصيّ".
- التّكرار التّكييفيّ: إعادة الصّياغة وتجربة صيغٍ عدّةٍ للطّلب نفسه حتّى الوصول إلى أفضل نتيجةٍ.
وفي الأطر المتقدّمة، تظهر مجموعةٌ من الأساليب التّوجيهيّة المبنيّة على التّفكير التّسلسليّ والاستدلال المنظّم:
- التّوجيه الـتسلسليّ (Chain-of-Thought - CoT): يعلّم النّموذج الخطوات المنطقيّة للوصول إلى الإجابة. [6]
- التّوافق الذّاتيّ (Self-Consistency): يولّد النّموذج عدّة مساراتٍ تفكيريّةٍ، ثمّ يختار أكثرها اتّساقاً.
- شجرة الأفكار (Tree of Thoughts - ToT): بناء مساراتٍ متعدّدةٍ وتقييمها خطوةً خطوةً. [7]
- نهج التّفكير والتّصرّف (ReAct): جمع الاستدلال الذّهنيّ مع الفعل، كـالبحث الفعليّ في مصادر معرفةٍ خارجيّةٍ. [8]
- الانعكاس الذّاتيّ (Reflexion): تعلّم النّموذج من أخطائه، وتحسين أدائه من خلال تغذيةٍ راجعةٍ نصّيّةٍ. [9]
وبمقارنةٍ صارمةٍ، تتّضح الفجوة بين أسلوبين:
- أسلوبٌ يبني الاستجابة على التّفكير والتّوجّه العقلانيّ؛
- وآخرٌ يخاتب النّموذج بلغة الإكراه أو التّزيين العاطفيّ.
فالأوّل ينتج دقّةً واتّساقاً، والثّاني يؤدّي، وإن زيّن المخرج، إلى الارتباك والمخاطرة.
ختاماً، تؤثّر اللّغة على سلوك نماذج الذّكاء الاصطناعيّّ، وليس لأنّها "تفهم" أو "تخاف"، بل لأنّ طريقة صياغة الطّلب تغيّر احتمالات الإجابة. وعلى الرّغم من أنّ التّهديد أو التّمليق قد يبدو أحياناً فعّالاً، إلّا أنّه يؤدّي في النّهاية إلى هلوساتٍ وسوء افتهامٍ ونتائج غير دقيقةٍ.
البديل؟ توجيهٌ ذكيٌّ وأخلاقيٌّ: واضحٌ، متدرّجٌ، مستندٌ إلى الفكر، ويستعين بـنماذج الاستدلال التّسلسليّ والانعكاس الذّاتيّ.
في النّهاية، ليس السّؤال "كيف نخضع الـAI؟"، بل "كيف نستعمل لغتنا بمسؤوليّةٍ؟".
شاهد أيضاً: لطفك مع ChatGPT يكلّف OpenAI ملايين الدولارات