Waarom de recall-meting belangrijk is voor grote modellen
Categories:
Ik heb een aantal systeemprompten gelezen, die vrijwel allemaal erg uitgebreid zijn en niet beknopt geformuleerd. Sommige prompten zijn vooral bedoeld om het model te leren hoe het iets moet doen.
Daarnaast merk ik dat roo code een schakelaar heeft waarmee de systeemprompt herhaaldelijk naar het model kan worden verzonden, wat aangeeft dat de rolinstelling en instructievolging kunnen worden versterkt. Dit verhoogt echter het tokenverbruik.
Misschien is het omdat belangrijke dingen meerdere keren herhaald moeten worden om het gewicht tijdens de berekening te verhogen en de kans op bevestiging te verhogen, wat uiteindelijk tot een grotere kans op correcte resultaten leidt. Spijtig genoeg zijn deze resultaten nog steeds probabilistisch correct.
Mensen die lange tijd met het Claude-model en gpt5high hebben gewerkt, zullen misschien het gevoel hebben dat gpt5high, hoewel traag, een zeer hoge correctheid heeft.
Is het mogelijk dat dit verband houdt met het feit dat de recall van gpt5 100% bereikt?
Tijdens het gebruik van AGENTS.md om gpt5 te sturen, merk ik dat ik met zeer beknopte, bondige uitspraken de codex cli kan sturen. Bij het gebruik van claude code moet CLAUDE.md echter vaak erg “uitgebreid” worden geschreven. Ook dan negeert claude soms duidelijke aandachtspunten. De verbetering hoeft niet noodzakelijk te bestaan uit het herhalen van een eis; het gebruik van verschillende woorden zoals “moet”, “belangrijk”, en het gebruik van haakjes, vetgedrukte markdown (**), kan ook de naleving versterken.
Met andere woorden, bij het samenwerken met het claude-model zijn de eisen aan de prompt hoog; subtiele veranderingen in woordkeuze beïnvloeden de prestaties van het model. Bij het gebruik van gpt5 zijn de eisen aan de prompt niet hoog; zolang de beknopte uitdrukking geen logische tegenstrijdigheden bevat, kan de codex cli het goed doen. Als er logische tegenstrijdigheden zijn, zal gpt5 die aanwijzen.
Mijn ontevredenheid over het samenwerken met het claude-model neemt steeds meer toe, niet omdat het werk slecht is, maar omdat ik er al een paar keer door ben verrast en het model niet meer vertrouw. Elke keer dat claude “uitbarst” verandert het veel code, en het veranderen van CLAUDE.md is ook erg radicaal. Zoals het spreekwoord zegt: “veel woorden, veel fouten”. Hoe maak je een zeer uitgebreide systeemprompt zonder tegenstrijdigheden? Het controlewerk is te groot en de mentale belasting is ook erg hoog.
In vergelijking hiermee lijkt gpt5high echte logica te hebben, wat misschien verband houdt met zijn hoge recall.