Pourquoi l'indicateur de taux de rappel des grands modèles est important

Après avoir lu quelques prompts système, ils sont généralement très verbeux et peu concis. Certains prompts enseignent principalement au modèle comment accomplir une tâche.

J’ai également remarqué dans le code roo la possibilité d’activer l’envoi répété du prompt système au modèle, ce qui renforce la définition du rôle et le respect des instructions, mais augmente la consommation de tokens.

Cela pourrait s’expliquer par le fait que les éléments importants doivent être répétés plusieurs fois pour augmenter leur poids lors du calcul et ainsi augmenter la probabilité d’obtenir un résultat correct. Malheureusement, ces résultats restent probabilistes.

Ceux qui ont longuement utilisé les modèles Claude et gpt5high peuvent ressentir que bien que gpt5high soit très lent, son taux de précision est extrêmement élevé.

Cela pourrait-il être lié au taux de rappel de gpt5 atteignant 100% ?

En utilisant AGENTS.md pour diriger le travail de gpt5, j’ai constaté qu’il suffit de parler de manière très concise et précise pour que codex cli accomplisse les tâches. En revanche, lors de l’utilisation de claude code, il est souvent nécessaire d’écrire CLAUDE.md de manière très « verbeuse ». Même ainsi, Claude ignore parfois certaines exigences explicites. L’amélioration ne nécessite pas toujours de répéter une exigence ; l’utilisation de différents mots tels que « doit », « important », l’ajout de parenthèses ou de gras en markdown (**) peut également renforcer le respect des consignes.

En d’autres termes, lors de l’utilisation du modèle Claude, les exigences en matière de prompt sont plus élevées ; de subtiles variations lexicales peuvent influencer la performance du modèle. En revanche, avec gpt5, les exigences en matière de prompt sont moins strictes ; tant que l’expression concise ne contient pas de contradictions logiques, codex cli fonctionne très bien. Si des contradictions logiques existent, gpt5 les indiquera.

Je suis de plus en plus insatisfait de la collaboration avec le modèle Claude. Ce n’est pas tant qu’il accomplisse mal les tâches, mais plutôt que, après avoir été piégé plusieurs fois, je ne peux plus lui faire confiance. Chaque fois que Claude « s’emballe », il modifie de nombreuses lignes de code, et il est également très radical lorsqu’on lui demande de modifier CLAUDE.md. Comme on dit, « qui parle trop finit par se trahir », comment garantir qu’un prompt système très long ne contient aucune contradiction ? La charge de travail pour le vérifier est énorme, tout comme le fardeau mental.

En comparaison, gpt5high semble posséder une véritable logique, ce qui pourrait être lié à son taux de rappel élevé.