لماذا يعتبر مؤشر معدل الاسترجاع للنماذج الكبيرة مهمًا
Categories:
قرأت بعض التعليمات النظامية، وكانت في الأساس طويلة جدًا وغير مكثفة. بعض التعليمات تركز بشكل أساسي على تعليم النموذج كيفية أداء المهام.
كما لاحظت وجود مفتاح في roo code لإرسال التعليمات النظامية بشكل متكرر إلى النموذج، مما يشير إلى إمكانية تعزيز تحديد الدور والامتثال للتعليمات. لكن هذا سيؤدي إلى زيادة استهلاك الـ tokens.
ربما لأن الأمور المهمة تحتاج إلى التكرار عدة مرات لرفع وزنها في الحسابات وزيادة احتمالية تأكيدها، والحصول في النهاية على نتائج أكثر صحة. للأسف، هذه النتائج لا تزال صحيحة احتماليًا.
قد يكون لدى المستخدمين الذين استخدموا نموذج claude و gpt5high لفترة طويلة انطباع بأن gpt5high، على الرغم من بطئه الشديد، لديه معدل صحة مرتفع جدًا.
هل يمكن أن يكون ذلك مرتبطًا بوصول معدل استرجاع gpt5 إلى 100٪؟
عند استخدام AGENTS.md لتوجيه gpt5 لأداء المهام، لاحظت أنه يمكن توجيه codex cli لأداء المهام بعبارات موجزة جدًا ومكثفة فقط. بينما عند استخدام claude code، غالبًا ما أحتاج إلى كتابة CLAUDE.md بشكل “ممل” جدًا، وحتى في هذه الحالة، قد تتجاهل claude بعض متطلبات الاهتمام المحددة بوضوح. وطريقة التحسين ليست بالضرورة تكرار الطلب، بل استخدام مفردات مختلفة مثل “يجب” و"مهم" وغيرها من الكلمات، واستخدام الأقواس، وتنسيق markdown للعريض (**)، يمكن أن يعزز الامتثال.
بمعنى آخر، عند استخدام نموذج claude، تكون المتطلبات عالية نسبيًا للتعليمات، والتغيرات الدقيقة في المفردات يمكن أن تؤثر على أداء النموذج. بينما عند استخدام gpt5، تكون المتطلبات منخفضة نسبيًا للتعليمات،只要精炼的表达不存在逻辑矛盾之处, codex cli 就可以做的很好. إذا كان هناك تناقض منطقي، فسوف يشير إليه gpt5.
أصبحت الآن أقل رضا عن التعاون مع نموذج claude في تطوير التطبيقات، ليس لأن أدائه سيء جدًا، بل لأنني تعرضت للخداع عدة مرات، ولا يمكنني الوثوق به بعد الآن. كل مرة يتأثر فيها claude، يقوم بتعديل الكثير من الكود، وحتى عند طلب تعديل CLAUDE.md يكون عدوانيًا جدًا. كما يقال، “كلما زاد الكلام زاد الخطأ”، كيف يمكن ضمان عدم وجود تناقضات بين التعليمات الطويلة؟ حجم العمل المطلوب للفحص كبير جدًا، والعبء الذهني أيضًا كبير.
بالنسبة لذلك، يبدو أن gpt5high يمتلك منطقًا حقيقيًا، وربما يكون ذلك مرتبطًا بمعدل استرجاعه العالي.