대규모 모델의 리콜률 지표가 중요한 이유

일부 시스템 프롬프트를 읽어보니 기본적으로 매우 장황하고, 표현이 간결하지 못했다. 몇몇 프롬프트는 주로 모델에게 일하는 방법을 가르치는 데 중점을 두었다.

또한 roo code에서 시스템 프롬프트를 모델에 반복 전송하는 스위치를 확인했는데, 이는 역할 설정과 지시사항 준수를 강화할 수 있다는 것을 의미한다. 하지만 토큰 소비량이 증가한다는 단점이 있다.

아마도 중요한 내용을 여러 번 반복함으로써 계산 시 가중치를 높이고, 확인 확률을 높이며, 궁극적으로는 더 정확한 결과를 얻기 위함일 것이다. 아쉽게도 이러한 결과는 여전히 확률적으로 올바를 수밖에 없다.

claude 모델과 gpt5high를 장기간 사용해본 사람이라면 gpt5high는 비록 느리지만 정확도가 매우 높다는 것을 느꼈을 것이다.

이는 gpt5의 리콜률이 100%에 도달한 것과 관련이 있을지도 모른다.

나는 AGENTS.md를 사용해 gpt5를指挥할 때 매우 간결하고 정제된 말만으로도 codex cli가 일을 수행할 수 있다는 것을 발견했다. 반면 claude code를 사용할 때는 CLAUDE.md를 매우 “말이 많게” 작성해야 하는 경우가 종종 있었고, 그래도 claude는 명확히 요구된 주의사항을 무시하기도 했다. 개선 방법은 반드시 요구사항을 반복하는 것만은 아니다. “반드시”, “중요” 등의 다른 단어를 사용하거나, 괄호를 치거나, 마크다운의 볼드체(**) 등을 활용하는 것도 순응성을 강화할 수 있다.

즉, claude 모델을 사용할 때는 프롬프트에 대한 요구가 높아서 미세한 어휘 변화만으로도 모델의 성능에 영향을 미친다. 반면 gpt5를 사용할 때는 프롬프트에 대한 요구가 낮아서 논리적 모순이 없는 정제된 표현만 있으면 codex cli가 잘 수행한다. 논리적 모순이 있을 경우 gpt5는 이를 지적한다.

나는 이제 claude 모델과의 협업 개발에 점점 불만이 커지고 있다. 일 자체를 너무 못하기 때문이라기보다는, 몇 차례 속은 후로는 신뢰할 수 없게 되었기 때문이다. claude는 매번 발작할 때마다 많은 코드를 수정하고, CLAUDE.md를 수정하라고 하면 매우 급진적으로 수정한다.所谓言多必失(말이 많으면 실수가 생긴다), 긴 시스템 프롬프트가前后矛盾(前后矛盾) 없이 보장될 수 있을까? 검증 작업량이 너무 많고, 정신적 부담도 크다.

이에 비해 gpt5high는 진정한 논리를 갖춘 것처럼 보이는데, 이는 아마도 높은 리콜률과 관련이 있을 것이다.