Por que a métrica de taxa de recall é importante para grandes modelos

Lendo alguns prompts de sistema, basicamente são todos muito extensos, expressões não refinadas. Alguns prompts principalmente ensinam o modelo a fazer as coisas.

Além disso, notei que o roo code tem um interruptor para reenviar repetidamente o prompt do sistema para o modelo, o que indica que é possível reforçar a definição de papéis e a obediência a instruções. No entanto, isso aumenta o consumo de tokens.

Talvez seja porque as coisas importantes precisam ser repetidas várias vezes para aumentar o peso nos cálculos, melhorar a probabilidade de serem confirmadas e, finalmente, obter resultados mais corretos. Infelizmente, esses resultados ainda são probabilisticamente corretos.

Quem usou o modelo claude e o gpt5high por um longo tempo pode sentir que, embora o gpt5high seja muito lento, sua taxa de acertos é muito alta.

Será que isso pode estar relacionado ao recall do gpt5 atingir 100%?

Ao usar o AGENTS.md para comandar o gpt5, descobri que basta usar palavras muito concisas e refinadas para fazer o codex cli trabalhar. Ao usar o claude code, muitas vezes é necessário escrever o CLAUDE.md de forma muito “tagarela”, e mesmo assim, o claude ignora alguns requisitos claros. A melhoria nem sempre requer repetir um requisito; usar diferentes palavras como “deve”, “importante”, usar parênteses, negrito markdown (**), pode reforçar a obediência.

Ou seja, ao usar o modelo claude, os requisitos para prompts são altos, e mudanças sutis no vocabulário podem afetar o desempenho do modelo. Ao usar o gpt5, os requisitos para prompts não são altos, basta expressões concisas que não contenham contradições lógicas, o codex cli pode fazer um bom trabalho. Se houver contradições lógicas, o gpt5 apontará.

Agora estou cada vez mais insatisfeito com a colaboração com o modelo claude, não porque ele faça um trabalho ruim, mas porque não consigo confiar nele depois de ter sido enganado algumas vezes. Cada surto do claude altera muitos códigos, e fazê-lo mudar o CLAUDE.md também é muito radical. Como diz o ditado, falar demais leva a erros inevitáveis; como garantir que um prompt de sistema muito longo não contenha contradições internas? O volume de trabalho de inspeção é realmente grande, e a carga mental também é pesada.

Em comparação, o gpt5high parece ter lógica real, talvez relacionada ao seu alto recall.