為何大模型的召回率指標重要

讀了一些系統提示詞, 基本都非常冗長, 表達不精煉. 一些提示詞主要是教模型做事.

另外看到 roo code 裡有重複將系統提示詞發送到模型的開關, 說明是可以強化角色設定, 和指令遵循. 但會增加 token 消耗.

可能是因为重要的東西需要重復多次, 以提升在計算時的權重, 提升被確認的概率, 最終得到更有可能正確的結果. 可惜的是, 這樣的結果仍然是概率性正確.

長時間用過 claude 模型和 gpt5high 的可能有感觸, gpt5high 儘管很慢, 但是正確率非常高.

是否可能和 gpt5 的召回率达到 100%有关.

我在使用 AGENTS.md 指揮 gpt5 幹活時發現, 只需要非常簡練, 精煉的話, 即可以指揮 codex cli 幹活. 而使用 claude code 時, 常常需要將 CLAUDE.md 寫的非常"囉嗦", 即使這樣, claude 也會忽略一些明確要求的注意事項. 改善方式也並不一定要重復說一個要求, 使用不同的詞彙如"必須", “重要"等字詞, 使用括號, markdown 的加粗(**), 都可以加強遵循性.

也就是說, 使用 claude 模型時, 對提示詞的要求較高, 細微詞彙變化即會影響模型表現. 而使用 gpt5 時, 對提示詞的要求不高, 只要精煉的表達不存在邏輯矛盾之處, codex cli 就可以做的很好. 如果存在邏輯矛盾之處, gpt5 會指出來.

我現在對和 claude 模型的合作開發越來越不滿, 倒不是它活幹的太差, 而是被坑過幾回後無法信任它, claude 每次發作都會改很多代碼, 讓它改 CLAUDE.md 也是非常激進. 所謂言多必失, 一個很長的系統提示詞如何保證不存在前後矛盾之處, 檢視工作量實在太多, 心智負擔也很大.

相較而言, gpt5high 似乎具有真正的邏輯, 這或許和它的高召回率相關.